Day4：字符编码与文件处理

zoukankan html css js c++ java

Day4：字符编码与文件处理
一.字符编码

一.了解字符编码的知识储备

1：文本编辑器存储文件的原理（nodepad++，pycharm，word）

打开编辑器就打开了启动了一个进程，是在内存中的，所以在编写的内容也都是存放在内存中的，断电后数据丢失。

因而需要保存到硬盘上，点击保存按钮，就从内存中把数据刷到了硬盘上。

在这一点上，我们编写一个py文件（没有执行），跟编写其他文件没有任何区别，都只是在编写一堆字符而已。

2.python解释器执行py文件的远离，例如python test.py

第一阶段：python解释器启动，此时就相当于启动了一个文本编辑器。

第二阶段：python解释器相当于文本编辑器，去打开test.py文件，从硬盘上将test.py的文件内容读入到内存中。

第三阶段：python解释器解释执行刚刚加载到内存中test.py的代码。

总结：

1.python解释器是解释执行文件内容的，因而python解释器具备毒py文件的功能，这一点与文本编辑器一样。

2.与文本编辑器不一样的地方在于，python解释器不仅可以读文件内容，还可以执行文件内容。

二.字符编码的使用

1.文本编辑器一锅端

2.文本编辑器pycharm

一gbk格式保存

以utf-8格式打开

总结：

无论是何种编辑器，要防止文件出现乱码（请一定注意，存放一段代码的文件也仅仅只是一个普通文件而已），此处指的是文件没有执行之前，我们打开文件是出现的乱码

核心法则就是：文件以什么编码保存的，就以什么编码方式打开。

3.程序的执行

python test.py （我再强调一遍，执行test.py的第一步，一定是先将文件内容读入到内存中）

阶段一：启动python解释器

阶段二：python解释器此时就是一个文本编辑器，负责打开文件test.py，即从硬盘中读取test.py的内容到内存中。

阶段三：读取已经加载到内存的代码（unicode编码的二进制），然后执行，执行过程中可能会开辟新的内存空间，比如x='egon'。

内存的编码使用unicode，不代表内存中全都是unicode编码的二进制，

在程序执行之前，内存中确实都是unicode编码的二进制,比如从文件中读取了一行x="egon",其中的x，等号，引号，地位都一样，都是普通字符而已，都是以unicode编码的二进制形式存放与内存中的

但是程序在执行过程中，会申请内存（与程序代码所存在的内存是俩个空间），可以存放任意编码格式的数据，比如x="egon",会被python解释器识别为字符串，会申请内存空间来存放"hello"，然后让x指向该内存地址，此时新申请的该内存地址保存也是unicode编码的egon,如果代码换成x="egon".encode('utf-8'),那么新申请的内存空间里存放的就是utf-8编码的字符串egon了

针对python3如下图

浏览网页的时候，服务器会把动态生成的Unicode内容转换为utf-8再传输到浏览器

如果服务端encode的编码格式是utf-8，客户端内存中收到的也是utf-8编码的二进制

二.文件处理

文件操作基本流程初探
f = open('chenli.txt') #打开文件 first_line = f.readline() print('first line:',first_line) #读一行 print('我是分隔线'.center(50,'-')) data = f.read()# 读取剩下的所有内容,文件大时不要用 print(data) #打印读取内容 f.close() #关闭文件
文件保存编码如下

此刻错误的打开方式
f=open('chenli.txt',encoding='utf-8') f.read()
文件的打开模式
1 文件句柄 = open('文件路径', '模式')
打开文件时，需要指定文件路径和以何等方式打开文件，打开后，即可获取该文件句柄，日后通过此文件句柄对该文件操作。

打开文件的模式有：
- r ，只读模式【默认模式，文件必须存在，不存在则抛出异常】
  
  w，只写模式【不可读；不存在则创建；存在则清空内容】
  
  x，只写模式【不可读；不存在则创建，存在则报错】
  
  a，追加模式【可读；不存在则创建；存在则只追加内容】
"+" 表示可以同时读写某个文件
- r+，读写【可读，可写】
  
  w+，写读【可读，可写】
  
  x+ ，写读【可读，可写】
  
  a+，写读【可读，可写】
"b"表示以字节的方式操作
- rb 或 r+b
  
  wb 或 w+b
  
  xb 或 w+b
  
  ab 或 a+b
注：以b方式打开时，读取到的内容是字节类型，写入时也需要提供字节类型，不能指定编码

文件内光标移动

注意：read（3）代表读取3个字符，其余的文件内光标移动都是以字节为单位如seek，tell，read，truncate。

上下文管理
with open('a.txt','w') as f: pass
with open('a.txt','r') as read_f,open('b.txt','w') as write_f: data=read_f.read() write_f.write(data)
文件的修改
import os with open('a.txt','r',encoding='utf-8') as read_f, open('.a.txt.swap','w',encoding='utf-8') as write_f: for line in read_f: if line.startswith('hello'): line='哈哈哈 ' write_f.write(line) os.remove('a.txt') os.rename('.a.txt.swap','a.txt')
查看全文

相关阅读:
经常让程序员恼火的一些事情你是否也遇到过一些？
CRC文件解压缩问题
 你在淘宝买件东西背后的复杂技术技术普及帖
 程序员需要戒骄戒躁
 IT路上的应该注意自我规划学习规划与自我修炼
 腾讯，我最恨别人用枪顶着我的头(转)
软件管理，软件生命周期，软件过程名词解释
 程序员需要掌握的最终技术是什么？ “终极技术”：应对困境的方法和信念
 程序员如何缓解“电脑病”
新浪微博XSS攻击事件

原文地址：https://www.cnblogs.com/Vee-Wang/p/6992927.html

Day4：字符编码与文件处理

一.字符编码

二.字符编码的使用

二.文件处理