文件的打开与读写
Python使用open()函数打开一个文件,函数参数为文件路径,打开模式,指定编码。
- 指定编码需要特别注意,改参数默认为使用系统编码,在中文操作系统上为GBK,如果和编译器编码不一致的话,打开含有 中文字符的文本文件时会出现乱码。
- 打开模式分为以下几种:
- r只读模式,如果指定文件不存在会抛出IOError,打开后指针位于文件头。
- r+读写模式,同上,增加写入权限。
- w写入模式,如果指定文件不存在会新建一个,如果文件存在打开后会清空文件内容。
- w+读写模式,同上,增加读取权限。
- a追加写入模式,如果指定文件不存在会新建一个,如果文件存在打开后指针位于文件末尾。
- a+追加读写模式,同上,增加读取权限。
追加模式(a,a+)写文件的时候永远添加在文件末尾,不管当前文件指针在哪个位置
写模式如果文件指针在中间,会覆盖对应长度的数据
open()默认将文件作为文本文件处理,如果需要处理二进制文件,可在模式中加入b指定,如rb,rb+。
file对象的读写处理:
- read(size),读取指定大小的数据,如size不指定则一次读取整个文件,当待处理文件很大时会有问题。
- readline,读取一行,注意读入的文本不会去除换行符,读取之后做文本处理时要手动处理。
- readlines,读取每一行并返回一个列表,同样不会去除换行符
- write()写入字符串
- close()关闭文件,由于打开文件会占用系统资源,且有打开文件个数的限制,记住要尽快关闭代开的文件。
- tell()返回当前文件指针位置。
- seek(x)文件指针跳转到x。
- truncate(x),x不指定相当于清空,指定x表示从文件开始位置阶段到指定位置,不管当前文件指针位置。
- flush(),将输出即刻提交(默认是将修改保存在缓存中,存满了一次提交)
用flush()模拟一个进度条
import sys,time for i in range(20): sys.stdout.write("#") sys.stdout.flush()#实时提交,而不是等待缓存满了之后一次性提交 time.sleep(0.1)
字符编码
Python3中,不同字符编码的转换需要通过Unicode(utf-8)作为中间层,先decode为中间层编码再解码为对应编码
msg = "中国" print(msg) print("utf-8:",msg.encode("utf-8")) #utf-8转换为gbk msg_gbk = msg.encode("gbk") print("gbk:",msg_gbk) #gbk再转换为utf-8,decode中的参数原编码 msg = msg_gbk.decode("gbk").encode("utf-8") print("utf-8:",msg)
输出
中国 utf-8: b'\xe4\xb8\xad\xe5\x9b\xbd' gbk: b'\xd6\xd0\xb9\xfa' utf-8: b'\xe4\xb8\xad\xe5\x9b\xbd'