字符编码、文件处理

zoukankan html css js c++ java

字符编码、文件处理
Day07

复习

运行程序的三个核心硬件：CPU、内存、硬盘

Python解释器运行一个py文件的步骤：
- a.将Python解释器从硬盘读到内存
- b.将py文件以普通文本文件的形式读到内存
- c.解释器识别Python语法，执行响应的操作
- ps：普通文本编辑器和Python解释器前两部都是一样的
字符编码

是什么：字符编码就是字符与数字的对应关系

发展史
阶段一：现代计算机起源于美国，最早诞生也是基于英文考虑的ASCII 阶段二:为了满足中文和英文，中国人定制了GBK 阶段三：各国有各国的标准，就会不可避免地出现冲突，结果就是，在多语言混合的文本中，显示出来会有乱码解决方案：unicode 和 UTF-8
- 总结
  
  内存中统一采用unicode，浪费空间来换取可以转换成任意编码（不乱码）
  
  硬盘可以采用各种编码，如utf-8，保证存放于硬盘或者基于网络传输的数据量很小，提高传输效率与稳定性。
unicode特点
- 能够兼容万国字符
- 与全世界所有的字符编码都有映射关系，这样就可以转换成任意国家的字符编码
注意
- 保证不乱码在于：文本文件以什么编码编的就以什么编码解
- Python2和Python3的区别
  
  Python2：将py文件按照文本文件读入解释器中默认使用ASCII码(因为在开发python2解释器的unicode还没有盛行)
  
  Python3：将py文件按照文本文件读入解释器中默认使用utf-8
- 文件头
  
  coding:utf-8 ：因为所有的编码都支持英文字符,所以文件头才能够正常生效
  
  基于Python解释器开发的软件，只要是中文，前面都需要加一个u
  
  举个例子：python2中（当你不指定文件头的时候，默认用ASCII存储数据，如果指定文件头那么就按照文件头的编码格式存储数据）
补充
- 1.pycharm终端用的是utf-8格式 2.windows终端采用的是gbk
总结
- encode('utf-8')将unicode编码成可以存储和传输的utf-8的二进制数据
- decode('utf-8')将硬盘中的utf-8格式的二进制数据解码成unicode格式的二进制数据
文件处理

复习
- 什么是文件：操作系统提供给用户操作复杂硬件的建议接口
- 为什么操作硬件：人或者应用程序需要永久的保存数据
操作文件的方法
- f = open()
  
  人或者应用程序，通过操作系统操作硬件的
  
  f = open(文件路径，编码格式) f = open(r'D:Python项目day07a.txt',encoding='utf-8') # r表示取消转义 print(f) # f是文件对象
- f.read() # 向操作系统发请求读取文件内容
- f.close() # 告诉操作系统关闭打开的文件
- 演示
  
  with open(r'D:PythonDay07a.txt',encoding='utf-8') as f , open(r'D:PythonDay07.txt',encoding='utf-8') as f1: ''' f仅仅是一个变量名你把它看成是一个遥控器 ''' print(f) print(f.read()) print(f1) print(f1.read())
文件处理的模式
- r ，只读模式【默认模式，文件必须存在，不存在则抛出异常】
- w，只写模式【不可读；不存在则创建；存在则覆盖内容】
- a，只追加写模式【不可读；不存在则创建；存在则只追加内容】
- t ，文本文件； t在使用的时候需要指定encoding参数如果不写encoding则默认是操作系统的默认编码
- b ，二进制；一定不能指定encoding参数
演示1：
# mode参数可以不写，不写的话默认是rt（只读文本文件）这个t如果不写默认就是t with open(r'D:PythonDay07a.txt',mode='r',encoding='utf-8') as f: print(f.readable()) # 是否可读 print(f.writable()) # 是否可写 print(f.read()) # 一次性将文件全部读出来
#输出结果 True False AAAAAAAAAAAAAA Process finished with exit code 0
演示2：
with open(r'a.txt','r',encoding='utf-8') as f: print(f.readable()) # 是否可读 print(f.writable()) # 是否可写 print('>>>1:') print(f.read()) # 一次性将文件内容全部读出 print('>>>2:') print(f.read()) print('>>>:结束')# 读完一次之后，文件的光标已经在文件末尾了，再读就没有内容可读了
#输出结果 True False >>>1: AAAAAAAAAAAAAA BBBBBBBB >>>2: >>>:结束　
演示3：
with open(r'a.txt','r',encoding='utf-8') as f: print(f.readlines()) # 返回的是一个列表，列表中的一个个元素对应的就是文件的一行行内容 print(f.read()) print('>>>:结束')
#输出结果 ['AAAAAAAAAAAAAA ', 'BBBBBBBB'] >>>:结束
演示4：
with open(r'a.txt',mode='r',encoding='utf-8') as f: print(f.readline()) # 只读取一行内容，读完本行后，光标跳到了下一行 print(f.readline()) print(f.readline()) print(f.readline()) print('>>>:结束')
#输出结果 AAAAAAAAAAAAAA BBBBBBBB >>>:结束
演示5：
with open(r'a.txt',mode='r',encoding='utf-8') as f: for i in f: # f可以被for循环，没for循环一次，读一行内容 print(i) # 这个方法就可以解决大文件一次性读取占用内存过高的问题 print('结束')
#输出结果 AAAAAAAAAAAAAA BBBBBBBB 结束
查看全文

相关阅读:
1.两数之和
 [Udemy] ES 7 and Elastic Stack
[Udemy] ES 7 and Elastic Stack
Common Linux Commands 日常工作常用Linux命令
 ELK 学习
 web 3d 技术预研及数据可视化技术
 AWS Cloud Practioner 官方课程笔记
 怎么用 pytorch 查看 GPU 信息
 ECG 项目预研
 怎么查看keras 或者 tensorflow 正在使用的GPU

原文地址：https://www.cnblogs.com/buzaiyicheng/p/11140628.html

字符编码、文件处理

Day07

复习

运行程序的三个核心硬件：CPU、内存、硬盘

Python解释器运行一个py文件的步骤：

字符编码

是什么：字符编码就是字符与数字的对应关系

发展史

unicode特点

注意

coding:utf-8 ：因为所有的编码都支持英文字符,所以文件头才能够正常生效

补充

总结

文件处理

复习

操作文件的方法

文件处理的模式