文件处理

zoukankan html css js c++ java

文件处理
目录
1. 字符编码
1.1 计算机基础
1.2 文本编辑器
1.3 python解释器
1.4 字符编码
1.5 什么情况会出现乱码
1.6 乱码的两种情况
1.7 解决乱码
2. python2和3字符编码的区别
2.1 python解释器运行代码的流程
2.2 python3(了解)
2.3 Python2(了解)
3. 文件的打开方式
3.1 只读(r)
3.2 只写(w)
3.3 追加(a)
4. with管理文件上下文
4.1 文件读写内容的格式
4.1.1 文本模式t
4.1.2 进制模式b
4.2 with管理文件操作上下文
1. 字符编码

1.1 计算机基础

1.cpu

控制程序的运行(从内存中取出文本编辑器的数据读入内存)

2.内存

运行程序(经cpu操作后,内存中含有文本编辑器的数据)

3.硬盘

存储数据(文本编辑器)

1.2 文本编辑器

计算机只认识 0和1

文本编辑器的作用: 读写数据,保存数据

1.3 python解释器

具有文本编辑器的功能

010101011001010 --> a = 1 # 5个很普通的字符 ,python解释器没有运行的时候提供的 # 字符编码

定义变量就要开辟内存空间存放变量,内存只认识 0和1 也就是说, a=1 --> 01010110101 需要一定的0和1表示他为字符串,python解释器运行的时候提供的 # python2和3字符编码的区别

1.4 字符编码

字符编码: 二进制和你所能认识的字符之间的相互转换的一个过程。

总而言之，字符编码是将人类的字符编码成计算机能识别的数字，这种转换必须遵循一套固定的标准，该标准无非是人类字符与数字的对应关系，称之为字符编码表。

unicode: 认识万国语言,万国编码

unicode 把 8位的英文变成了16位的英文, 多占用了内存空间。本着节约的精神，就出现了把Unicode编码转化为“可变长编码”的UTF-8编码。UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节。

1.5 什么情况会出现乱码

文件从内存刷到硬盘的操作简称存文件

文件从硬盘读到内存的操作简称读文件

编码格式不统一

存文件时就已经乱码：

文本编辑器支持的是utf8 ,你输入的是gbk --> 文件的存储

存文件时不乱码而读文件时乱码：

文件存储用了utf8 ,但是下次打开用了gbk --> 文件的读取

1.6 乱码的两种情况

中文的文本编辑器只认识中文,然后你输入了日文 --> 乱码 # encode 编码

文本编辑器存储了中文(文件),但是你用日本的编辑器打开这个文件 --> 乱码 # decode 解码

1.7 解决乱码

什么格式存储, 就什么格式读取就不会乱码(牢记这句话)

windows电脑的记事本默认为gbk编码,除此之外其他的软件默认编码为utf8

2. python2和3字符编码的区别

2.1 python解释器运行代码的流程
1. 启动python解释器(相当于文本编辑器)
2. 打开文件,显示这个字符并检查语法(涉及字符编码, a=1只是一个很普通的字符)
3. 解释字符 (涉及字符编码,再去内存空间生成一个a=1的变量)
python2用的是ascii, python3默认是utf8读取字符

coding:gbk`会告诉python3解释器用gbk编码读取字符

2.2 python3(了解)

你看到的其实是unicode,但是终端帮你把这个unicode的0和1做一个转换,从unicode转换成了终端能够识别的编码格式,然后变成中文
```
# coding:gbk
a = '中文'  # 用unicode编码存储了这堆0和1
print(a)  # 010101010
```
假设终端的默认编码是gbk , 认识 unicode编码的变量

假设终端的默认编码是utf8,认识 unicode编码的变量

2.3 Python2(了解)

unicode + 指定的coding编码(str类型)
```
# coding:gbk
a = '中文'  # 用gbk编码存储了这堆0和1
a = u'中文'  # 用unicode编码存储了这堆0和1
print(a)
```
终端是一个文本编辑器,会有默认编码.

假设终端的默认编码是gbk , 认识 gbk编码的变量

假设终端的默认编码是utf8, 不认识 gbk编码的变量

3. 文件的打开方式

3.1 只读(r)

r: read,只读模式，只能读不能写，文件不存在时报错。
```
f = open('test.py','r',encoding='gbk')  # 只读 # 文件内容拿出来，读一行少一号
print(f.read())  # 读取文件所有内容
# print(f.readable())  # 是否可读  # True
# print(f.readline())
# print(f.readline())
# print(f.readlines())  # 列表存储所有行，每一行都默认有换行符

# 以后使用这个方式循环文件
# data = f.read()
# for i in data:
#     print(i)

f.close()
```
3.2 只写(w)

w:write 只能写，不能读，文件存在的时候回清空文件后再写入内容；文件不存在的时候会创建文件后写入内容。
```
f = open('test.py','w',encoding='utf8')  # 只写 # 清空后再写
print(f.write('sbhd'))
# print(f.writable())
# print(f.writelines(['dsffd','vxfdv']))
f.close()
```
3.3 追加(a)

a: 可以追加。文件存在，则在文件的末端写入内容；文件不存在的时候会创建文件后写入内容。
```
f = open('test.py','a',encoding='utf8') # 追加 # 文件末追加
f.write('aaa')
f.close()
```
4. with管理文件上下文

4.1 文件读写内容的格式

4.1.1 文本模式t
```
f = open('test.py','rt')
data = f.read()
print(data)
```
4.1.2 进制模式b

b模式是通用的模式，因为所有的文件在硬盘中都是以二进制的形式存储的，需要注意的是：b模式读写文件，一定不能加上encoding参数，因为二进制无法再编码。
```
f = open('test.png','rb')
# f = open('test.png','wb')
# f = open('test.png','ab')
data = f.read()
print(data)
```
需要注意的是：t、b这两种模式均不能单独使用，都需要与r/w/a之一连用。

4.2 with管理文件操作上下文

之前我们使用open()方法操作文件，但是open打开文件后我们还需要手动释放文件对操作系统的占用。但是其实我们可以更方便的打开文件，即Python提供的上下文管理工具——with open()。
```
with open('test.png','wb') as fw:  #自动关闭文件
    fw.write(img)
```
with open()方法不仅提供自动释放操作系统占用的方法，并且with open可以使用逗号分隔，一次性打开多个文件，实现文件的快速拷贝。
```
with open('test.py','rt',encoding='utf8') as fr2,
    open('test.txt','rt',encoding='utf8') as fr1,
    open('test.png','rb') as fr3:
    data1 = fr1.read()
    print('data1',data1)
    data2 = fr2.read()
    print('data2',data2)
    data3 = fr3.read()
    print('data3',data3)
    
print('ndskhfvbdhfvjbhdkvheu好')
```
查看全文

相关阅读:
BZOJ1691: [Usaco2007 Dec]挑剔的美食家
 BZOJ1584: [Usaco2009 Mar]Cleaning Up 打扫卫生
 BZOJ3057: 圣主的考验
 BZOJ1770: [Usaco2009 Nov]lights 燈
 1710: [Usaco2007 Open]Cheappal 廉价回文
 「Poetize7」电话线路
 「Poetize6」Candle
「Poetize5」水叮当的舞步
 解题：CF983A Finite or not
解题：POI 2013 Triumphal arch

原文地址：https://www.cnblogs.com/yushan1/p/11316325.html

热门文章
算法
 BIOS
MS-DOS
Windows Server 2012 R2
OS
LinuxOS
Python 科学工具笔记
 pyenv
查错 CH Round #57
Luogu 考前模拟Round. 1

1. 字符编码

1.1 计算机基础

1.2 文本编辑器

1.3 python解释器

1.4 字符编码

1.5 什么情况会出现乱码

1.6 乱码的两种情况

1.7 解决乱码

2. python2和3字符编码的区别

2.1 python解释器运行代码的流程

2.2 python3(了解)

2.3 Python2(了解)

3. 文件的打开方式

3.1 只读(r)

3.2 只写(w)

3.3 追加(a)

4. with管理文件上下文

4.1 文件读写内容的格式

4.1.1 文本模式t

4.1.2 进制模式b

4.2 with管理文件操作上下文