python控制excel
xls12345678910111213141516171819202122232425import xlrd from xlutils.copy import copy# 需要导入xls文件路径excel_path = r"D:\Users\zx\Desktop\information.xls" rexcel = xlrd.open_workbook(excel_path, formatting_info=True) excel = copy(rexcel) # 获取第0页table = excel.get_sheet(0)# 纵坐标, 横坐标rows = rexcel.sheets()[0].nrowscols = rexcel.sheets()[0].ncols# 样式style = xlwt.easyxf('pattern: pattern solid, fore_colour red')# 写入# 横坐标, 纵坐标, 值, 样式table.write(row, col, tag, style)# 保存excel.save(r&q ...
md5
模板12345import hashlibwith open(path, "rb") as f: bytes = f.read() md5 = hashlib.md5(bytes).hexdigest()
文件夹处理
123456789101112131415import os# 获取路径下所有文件名字(仅当前文件夹下的文件名和其他文件夹名, 不包含子文件夹下文件)dir = os.listdir(filePath)# 路径下所有文件(包括子目录文件)# root -> 当前目录(路径)# dirs -> 当前目录下包含的子目录(路径)# files -> 当前文件夹下文件(名称)# 参数可选, 见最下方for root, dirs, files in os.walk(url, 参数)# 分割# 返回值为一个数组, 两个参数[文件路径(无拓展名), 文件拓展名(如果是文件夹则为空)]os.path.splitext(url)
topdown –可选,为 True,则优先遍历 top 目录,否则优先遍历 top 的子目录(默认为开启)。如果 topdown 参数为 True,walk 会遍历top文件夹,与top 文件夹中每一个子目录。
onerror – 可选,需要一个 callable 对象,当 walk 需要异常时,会调用。
followlinks – 可选,如果为 True ...
爬虫(selenium)
爬虫
1234567891011121314151617from selenium import webdriver# 装载驱动driverfile_path = r'C:\Users\zx\AppData\Local\Programs\Python\Python36-32\msedgedriver.exe' one_driver = webdriver.Edge(executable_path=driverfile_path)# 跳转到指定网址one_driver.get(url)# 示例:.find_elements_by_tag_name('td').find_elements_by_class_name('result-row').get_attribute("src").text# 退出one_driver.quit()
爬虫
爬虫(selenium)
123456789101112131415161718192021222324252627import requestsfrom bs4 import BeautifulSoup# 目标网址url = "https://www.peakbagger.com/list.aspx?lid=5651" headers = { # 改成自己的请求头 "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36 Edg/105.0.1343.42" }# 如果有奇怪报错则加上这句话# requests.packages.urllib3.disable_warnings()# 此时下面改成:# resp = requests.get(url, headers=headers, ve ...
加载条
库1pip install tqdm
使用1for pdf in tqdm(pdf_dir):
读写文件
12345with open("test.txt", "r") as f: f.read() # 一次性读取全部内容 f.readline() # 读取第一行内容 f.readlines() # 读取所有内容,数组返回每一行内容 f.write(data) # 写入,需要手动加换行
r : 读取文件,若文件不存在则会报错
w: 写入文件,若文件不存在则会先创建再写入,会覆盖原文件
a : 写入文件,若文件不存在则会先创建再写入,但不会覆盖原文件,而是追加在文件末尾
rb,wb: 分别与r,w类似,但是用于读写二进制文件
r+ : 可读、可写,文件不存在也会报错,写操作时会覆盖
w+ : 可读,可写,文件不存在先创建,会覆盖
a+ : 可读、可写,文件不存在先创建,不会覆盖,追加在末尾
操作pdf
安装库12pip install pypdf2pip install pdfplumber
提取文字12345# 提取pdf文字with pdfplumber.open("D:\\pdffiles\\Python编码规范中文版.pdf") as pdf: page01 = pdf.pages[0] #指定页码 text = page01.extract_text()#提取文本 print(text)
提取表格12345with pdfplumber.open("D:\\pdffiles\\人力资源部岗位编制.pdf") as pdf: page01 = pdf.pages[0] #指定页码 table1 = page01.extract_table()#提取单个表格 # table2 = page01.extract_tables()#提取多个表格 print(table1)
Git常见错误
Your local changes to the following files would be overwritten by merge:原因git库与本地库文件代码段不同
解决强制更新本地代码库
git fetch –all
git reset –hard origin/master
git pull
注意:该命令直接放弃所有修改代码,并更新到版本库最新版本代码
Your local changes to the following files would be overwritten by merge:原因本地修改的文件会被远程仓库文件覆盖
解决方法一暂时封存本地
1git stash git pull origin master git stash pop
方法二如果本地不重要,则全部丢弃
1git reset --hard
windows系统下提示Could not resolve host: github.com解决在hosts文件中加入
123140.82.113.3 github.com 199.232.5.194 github.globa ...
删除GitHub仓库中文件
git init初始化仓库
git clone <地址>
dir用来查看目录
git rm 对指定文件进行删除
如果要删除文件夹需:git rm -r
提交本次修改:git commit -m ‘备注’
把删除的文件恢复到最新版:git checkout
推送:git push