字符编码和文件处理

zoukankan html css js c++ java

字符编码和文件处理
1.字符编码介绍

　运行程序的三个核心硬件: CPU, 内存, 硬盘

　任何一个程序要想运算,必先由硬盘加载到内存, 然后CPU在内存中存取并执行,运行着的应用程序产生的数据,必先存在内存
Python解释器运行py文件步骤 1. 将Python解释器的代码由硬盘读到内存 2. 将py文件以普通文本形式读到内存 3. Python读取文件内容,识别Python语法,执行相应的操作 ps: 普通的文本编辑器与Python解释器前两步是一样的不同的是第三步普通文本将文本内容展示给用户看
　　a.什么是字符编码？

　　字符编码是针对文字，跟文本文件有关，人在操作计算机时输入的是人能看懂的字符，计算机能识别的0101这样的二进制数据。

　　b.字符编码发展分为三个阶段

　　阶段一：现代计算机起源于美国，最早诞生也是基于英文考虑的ASCII

　　阶段二:为了满足中文和英文，中国人定制了GBK。用2个Bytes表示一个中文字符，1个Byte表示一个英文字符。

　　c.阶段三：万国码的出现，与全世界所有的字符编码都有映射关系，这样就可以转换成任意国家的字符编码　　

　　总结：内存中统一使用unicode，浪费空间来换取可以转换成任意编码（不乱码），硬盘可以采用各种编码，如utf-8，保证存放于硬盘或者基于网络传输的数据量很小，提高传输效率与稳定性。

　　内存中编码统一使用unicode.数据由内存读到硬盘，内存中的unicode格式的二进制编码成硬盘中二进制的utf-8格式。从硬盘读取到内存，硬盘中的二进制utf-8格式解码到内存中unicode格式二进制。

2.文件处理

　　a.在python中

　　1). 打开文件，得到文件句柄并赋值给一个变量

　　f=open('a.txt','r',encoding='utf-8')#默认打开模式就为r(表示只读)

　　2).通过语柄对文件进行操作

　　data = f.read()

　　3).关闭文件

　　f.close()

　　b.强调

　　1）.打开一个文件包含两部分资源：操作系统级打开的文件+应用程序的变量。在操作完毕一个文件时，必须把与该文件的这两部分资源一个不落地回收，回收方法为

　　f.close() 回收操作系统级打开文件

　　del f 回收应用程序级的变量

　　其中del f一定发生在f.close()之后，否则会导致操作系统打开的文件还没有关闭，白白浪费资源，而python自动的垃圾回收机制决定了我们无需考虑del f,这就要求我们记住f.close()。

　　2).f = open(...)是操作系统打开文件，如果我们没有为open指定代码，打开文件编码当然是默认系统说了算，操作系统会用自己的方式打开文件，在windows是gbk,在linux下位utf-8。

　　c.打开文件模式

　　1）.打开文件的模式有（默认为文本模式）

　　r, 只读模式【默认模式，文件必须存在，不存在则抛出异常】

　　w, 只写模式【不可读；不存在则创建；存在则清空前一步写的内容】

　　a, 只追加模式【不可读；不存在则创建；存在则只追加内容】

　　2）.对于非文本文件，我们只能用b模式，‘b’表示以字节的形式操作（所有的文件都是以字节来存储的，使用这种模式无需考虑文本文件的字符编码，图片文件的jpg模式，视频文件的avi模式）

　　rb

　　wb

　　ab

　　以b方式打开时，读取到的内容为字节类型，写入时也需要提供字节类型，不能指定编码。

　　d.操作文件的方法

　　f.read() 读取所有内容，光标移动到文件末尾

　　f.readline() 读取每一行内容，光标移动到第二行首部

　　f.readlines() 读取每一行内容，存放于列表中

　　f.readable() 文件是否可读

　　f.writable() 文件是否可写

　　f.flush() 立刻将文件内容从内存刷到硬盘

　　e.文件内光标移动

　　read(3)

　　文件打开为文本模式，代表读取3个字符，文件打开方式为b模式时，代表读取3个字节

　　
生前无需久睡，死后自会长眠，努力解决生活中遇到的各种问题，不畏将来，勇敢面对，加油，你是最胖的，哈哈哈
查看全文

相关阅读:
约瑟夫问题
 十点半
 鹊桥相会
 C语言实验——数日子
 汉诺塔
 读入字符串
 C语言实验——各位数字之和排序
 数据结构实验之链表五：单链表的拆分
 C语言实验——分割整数
 大一上学期

原文地址：https://www.cnblogs.com/panshao51km-cn/p/11147952.html