7-5字符编码和文件处理

zoukankan html css js c++ java

7-5字符编码和文件处理
一.字符编码

1.1什么是字符编码

计算机是基于电工作的，换而言之计算机只能识别二进制数(0,1),让计算机能懂得人类的语言，也就是如何将是实现字符到数字的过程，一个字符如何对应一个特定数字的标准，这个标准称之为字符编码。

1.2字符编码的发展史

1.ASCII码表

用8位二进制数(1Bytes)表示一个英文字符，数量最多可至256个(0-255/0000 0000-1111 1111)

2.各国各自制定的编码表

为了满足中文和英文的需求，中国制定了GBK

GBK：2Bytes表示一个中文字符，1Bytes表示一个英文字符

日本制定了shift_JIS

韩国人制定了Euc_kr

3.统一标准

unicode:统一用2个Bytes表示一个字符

unicode的缺点：

1.浪费存储空间

2.io次数增加，程序运行效率降低(致命)

unicode的优点：

1.能兼容万国字符

2.其他国家的编码数据由硬盘读到内存的时候Unicode与其他国家的编码都有对应关系

对于全是英文的文章来说，Unicode的样式多了一倍的存储空间，这样太过浪费，所以后来出现了utf-8。在utf-8中对英文字符采用1Bytes表示，对中文字符采用3Bytes表示。

现状：

内存中采用Unicode

硬盘中采用utf-8

4.编码和解码过程

编码(encode):

数据由内存保存到硬盘

1.内存中的unicode格式二进制数>>>>编码(encode)>>>>>utf-8格式的二进制数据

硬盘中的数据由硬盘到内存

1.硬盘中的utf-8格式的二进制数据>>>>解码(decode)>>>>>内存中的Unicode格式的二进制数据

ps：1.如何保证不乱码在于文件用什么编码编写的就用什么编码解

2.关于python2和python3的区别

　　在pytho2中按照文本文件读入解释器中默认使用ascii码(unicode还没盛行)

　　在python3中按照文本文件读入解释器默认使用的是utf-8

文件头：# condong:(字符编码) eg:(# conding:utf-8)

写在文件的开头，让解释器以规定的字符编码来解读文件
x = '上' res1 = x.encode('utf-8') # 将unicode编码成可以存储和传输的utf-8的二进制数据 print(res1) # b'xe4xb8x8a' # bytes类型字节串类型你就把它当成二进制数据即可 res2 = res1.decode('utf-8') # 将硬盘中的utf-8格式的二进制数据解码成unicode格式的二进制数据 print(res2)
二.文件处理

2.1什么是文件

操作系统暴露给我们操作复杂硬件(硬盘)的简易接口

2.2为什么操作文件

人或者应用程序要永久保存数据

2.3如何用文件

f=open()

f.read()

f.close()

2.4如何通过python代码操作文件

使用open命令如：
r取消转义 f = open(r'D:Python项目day07a.txt',encoding='utf-8') # 向操作系统发送请求打开某个文件 # 应用程序要想操作计算机硬件必须通过操作系统来简介的操作 print(f) # f是文件对象 print(f.read()) # windows操作系统默认的编码是gbk python默认的是utf-8 f.read() # 向操作系统发请求读取文件内容 f.close() # 告诉操作系统关闭打开的文件 print(f) print(f.read())
ps:如要打开a.txt在输入文件路径时可以采用绝对路径也就是文件的全部路径名称，也可以采用相对路径，加入文件在‘day07’文件夹下，此刻有另一个‘day07’下文件夹b.txt可以直接输入r'a.txt',encoding='utf-8'打开文件

2.5文件上下文操作
with open(r'D:Python项目day07a.txt',encoding='utf-8') as f , open(r'D:Python项目day07.txt',encoding='utf-8') as f1: # f仅仅是一个变量名你把它看成是一个遥控器 print(f) print(f.read()) print(f1) print(f1.read())
2.6文件打开模式

t：操作文件内容都是以字符串为单位，会自动帮我们解码，必须指定encoding参数

b:操作文件都是以Bytes(二进制)为单位，硬盘中存的是什么就取出来什么一定不能指定encoding参数
ps：文件的打开模式一定要和打开方式一起使用如“rt”，其中t模式只能用于文本文件，b模式可以用于任何文件

2.7文件打开的方式

r：只读模式

w：只写模式

a：追加写模式

r模式：只读模式，如果打开的文件存在则光标跳到文件的开头，如果文件不存在则会报错
with open(r'D:pythonpython练习a.txt',mode = 'rt',encoding = 'utf-8') as f: print(f.readable()) # 是否可读 True print(f.writable()) # 是否可写 False print(f.read()) # 一次性将文件内容全部读出
　　　
ps：其中mode参数可以不写，不写默认是rt模式，只读的文本文件，其中rt中的t不写可以不写
with open(r'D:pythonpython练习a.txt') as f: pass
相对路径：
with open(r'数据类型分类.jpg',mode='rb') as f: pass
rb模式：
with open(r'C:Users何晓东Desktop上课截图数据类型分类.jpg',mode='rb') as f: print(f.readable()) # 是否可读 True print(f.writable()) # 是否可写 False print(f.read()) # 一次性将文件内容全部读出
with open(r'D:pythonpython练习a.txt',mode = 'rt',encoding = 'utf-8') as f: print(f.readable()) # 是否可读 print(f.writable()) # 是否可写 print(">>>1:") print(f.read()) # 一次性将文件内容全部读出 print('>>>2:') print(f.read()) # 读完一次之后文件的光标已经在文件末尾了，再读就没有内容了可读 print(f.readlines()) # 返回的是一个列表列表中的一个个元素对应的就是文件的一行行内容由于光标在最后返回为[] print(f.readline()) # 只读取文件一行内容
w模式:只写模式，打开的文件若不存在则新建该文件，若存在则打开并清空其中内容然后在写入(慎用)
with open(r'D:pythonpython练习a.txt',mode = 'wt',encoding = 'utf-8') as f: print(f.readable()) # 是否可读 print(f.writable()) # 是否可写 f.write('学习使我快乐，我爱学习 ') f.write('学习使我快乐，我爱学习 ') f.write('学习使我快乐，我爱学习 ') f.write('学习使我快乐，我爱学习 ') f.write('学习使我快乐，我爱学习 ') l = ['学乐，我学习 ','学习使我快乐，我习 ','学乐，我爱学习 '] f.writelines(l) # 输入多行
a模式:追加写模式打开的文件若不存在，会自动创建该文件，若已存在则会打开文件不清空内容并把光标移至最后
with open(r'D:pythonpython练习a.txt',mode = 'a',encoding = 'utf-8') as f: print(f.readable()) # 是否可读 False print(f.writable()) # 是否可写 True f.write('我超爱学习 ')
查看全文

相关阅读:
u-boot 2011.09 调用kernel 的流程
 Delphi repeat Until 运用
 clientdataset的使用
 类型TTreeView.items.add 与 TTreeView.items.addchild有何区别？(10分)
delphi中nil、null、UnAssigned区别
 操作TreeView（咏南工作室）
delphi7 treeview + 数据库实现动态节点维护
 Delphi Try Except 实例
 Delphi 中自定义异常及异常处理的一般方法
 Delphi中的异常处理（10种异常来源、处理、精确处理）

原文地址：https://www.cnblogs.com/z929chongzi/p/11140410.html