补充:
常量:,在Python中是没有定义的。
常量表示,经常用全部大写来表示,提示,是不能动的,实际上是可以动的。
文件的处理流程,
用普通的文本处理器处理文件,编辑器打开,进入内存,启动, 文件开始读入内存,由编辑器开始编辑,断电,则数据消失,要保存,则刷到硬盘里,
Python解释器的执行过程:
1.Python解释器启动,进入内存,与普通 的文本编辑器没有区别,
2.打开一个 .py 文件,文件从硬盘开始往内存读取,
3.Python解释器执行文件.py,开始执行加载到内存里代码,
Python解释器不仅可以读文件,还可以执行文件,
---------------------------------------------------------------------------------------------
一、字符编码
1.关于字符编码的来历
计算机通过高频电和低频电,来代表1和0 ,所以只认识1和0 ,人认识汉字,字母,数字,符号等,所以就需要计算机和人类之间进行一个翻译
所以必须经过一个过程:
字符--------(翻译过程)------->数字
这个过程实际就是一个字符如何对应一个特定数字的标准,这个标准称之为 ----字符编码
2.字符编码的发展
2.1
Ascll码 ,诞生在美国,基于英文的考虑,8个二进制来表示一个字节,既8bite=1bytes,
8bite就是8个1和0组成,可以代理256种状态,2*8=256,ASCII最初只用了后七位,127个数字,
已经完全能够代表键盘上所有的字符了(英文字符/键盘的所有其他字符)
后来为了将拉丁文也编码进了ASCII表,将最高位也占用了。
每一个字母,数字,符号,都对应了一个二进制,
2.2
中国的GBK, GBK:2Bytes代表一个字符
为了满足其他国家,各个国家纷纷定制了自己的编码
日本把日文编到Shift_JIS
里,韩国把韩文编到Euc-kr
里,
问题,各种之间都有自己的标准,不统一,就产出了乱码,
2.3 unicode 的产生
Unicode全世界统一,2**16-1=65535,可代表6万多个字符,因而兼容万国语言,2个bytes代表一个字符,不存在语言问题,用Unicode代表英文字符就浪费了,占用空间多,但速度快,所以在内存里用Unicode处理,
utf-8是为了节省空间,英文用1个bytes,中文用3个bytes,占用空间小,处理速度就慢,所以在硬盘里,和网络中的数据都是utf-8
备注:
所有程序,最终都要加载到内存,程序保存到硬盘不同的国家用不同的编码格式,但是到内存中我们为了兼容万国(计算机可以运行任何国家的程序原因在于此),统一且固定使用unicode,这就是为何内存固定用unicode的原因,你可能会说兼容万国我可以用utf-8啊,可以,完全可以正常工作,之所以不用肯定是unicode比utf-8更高效啊(uicode固定用2个字节编码,utf-8则需要计算),但是unicode更浪费空间,没错,这就是用空间换时间的一种做法,而存放到硬盘,或者网络传输,都需要把unicode转成utf-8,因为数据的传输,追求的是稳定,高效,数据量越小数据传输就越靠谱,于是都转成utf-8格式的,而不是unicode。
Unicode与utf-8 之间存在一个对应关系
二、字符编码的使用
当文件全部加载到内存时,是Unicode,
无论是何种编辑器,要防止文件出现乱码(请一定注意,存放一段代码的文件也仅仅只是一个普通文件而已,
此处指的是文件没有执行前,我们打开文件时出现的乱码)
核心法则就是,文件以什么编码保存的,就以什么编码方式打开
以gbk保存的,就要告诉解释器用gbk编码格式打开,在文件开头写coding:gbk,
如果是utf-8,就告诉解释器用uft-8编码格式打开,在文件开头写coding:utf -8,
-----------------以上内容是文件读取到内存时候的过程-----------------------------
在文件开始执行时的过程,什么情况下全部是Unicode,
执行之前全是Unicode,y='egon'.encode('utf-8') ,--经过encode,转成了bytes类型,所以在encode阶段,可以成为任何类型
识别字符串是在执行阶段,在py3中是Unicode,Unicode 可以转成任意编码格式,默认情况下是Unicode,
注意:python3中使用utf-8编码,python2中用ASCII码编码
内存的编码使用unicode,不代表内存中全都是unicode编码的二进制,
如果 x='egon'.encode('utf-8'),那么新申请的内存空间里存放的就是utf-8编码的字符串egon了,
浏览网页的时候,服务器会把动态生成的Unicode内容转换为UTF-8再传输到浏览器
如果服务端encode的编码格式是utf-8, 客户端内存中收到的也是utf-8编码的二进制
2.1 在python2中有两种字符串类型str和unicode
str类型
当python解释器执行到产生字符串的代码时(例如s='林'),会申请新的内存地址,然后将'林'encode成文件开头指定的编码格式,这已经是encode之后的结果了,所以s只能decode
所以很重要的一点是:
在python2中,str就是编码后的结果bytes,str=bytes,所以在python2中,unicode字符编码的结果是str/bytes
unicode类型
当python解释器执行到产生字符串的代码时(例如s=u'林'),会申请新的内存地址,然后将'林'以unicode的格式存放到新的内存空间中,所以s只能encode,不能decode
打印到终端
对于print需要特别说明的是:
当程序执行时,比如
x='林'
print(x) #这一步是将x指向的那块新的内存空间(非代码所在的内存空间)中的内存,打印到终端,而终端仍然是运行于内存中的,所以这打印可以理解为从内存打印到内存,即内存->内存,unicode->unicode
----------------------------------------------------------------------------------------------------------------------------------------------------------------
python3中的字符串与python2中的'字符串',都是unicode,所以无论如何打印都不会乱码
encode是Unicode编码的一个结果,是 bytes类型
byte类型的decode的结果是Unicode
--------------------------------------------------------------------------------------------------------
文件操作,
文件的 读 操作
f=open('1.txt','r')
print(f)
---结果 <_io.TextIOWrapper name='1.txt' mode='r' encoding='cp936'>
1.文件的打开与关闭
f=open('1.txt','r') -----如果读的这个文件不存在,就会报错
print(f)
# f.read()
f.close()-----------打开文件后一定要关掉,占用系统资源内存空间
f=open('1.txt','r',encoding='utf-8')-----告诉解释器,用encoding='utf-8'编码,取决文件存档的方式
------------------------------------------------------------------------------------------
2.文件读取
f=open('1.txt','r',encoding='utf-8')
# print(f)
print(f.read())----打印出读取文件的内容
-------------------------------------------------------------------------------------
3.文件每次的读取从开头开始读,第二次开始读时,没有结果,因为第一次读完文件后,光标已经移动到文件的最后
f=open('1.txt','r',encoding='utf-8')
# print(f)
print("1:",f.read())
print("2:",f.read())
结果
1: 111111
222222
aaaaaa
vvvvvv
2: ---------2后面的结果都为空,1 已经把文件一下子全部执行完
----------------------------------------------------------------------------------------
4.
f=open('1.txt','r',encoding='utf-8')
print(f.readline(),end='')
print(f.readline(),end='')
----------------一次读一行,print后面默认空一行,加end去掉空行-
--------------------------------------------------------------------------------------------
5.文件 读 的操作
f=open('1.txt','r',encoding='utf-8')
print(f.readlines(),end='')-------读出所有行,以列表形式输出
---------------------------------------------------------------------------------------
6.文件 写 的操作
f=open('1.txt','r',encoding='utf-8') ----文件是以读的方式打开,所以不能写
print(f.write('wwwwwwwww'))
print(f.write('wwwwwwwww'))
io.UnsupportedOperation: not writable ----结果报错,
--------------------------------------------------------------------------------------
7.
f=open('b.txt','r',encoding='utf-8')
f.write('
44444
')
f.flush() ------------flush 是把写的文件立即刷到硬盘里
f.close()
-----------------------------------------------------------------------------------------
文件的 写 操作
1. 如果操作一个不存在的文件,就会新建这个文件,如果文件存在,就把该文件的内容清掉,才开始写
f=open('b.txt','w',encoding='utf-8')
print(f.write())
--------------------------------------------------------------------------------------
2.文件不能写数字,只能写字符
f=open('b.txt','w',encoding='utf-8')
print(f.write(11111111)
SyntaxError: invalid syntax ------报错
------------------------------------------------------------------------------------------
3. 写入内容,不加
不会换行,加上
换行
f=open('b.txt','w',encoding='utf-8')
f.write('11111111 ')
f.write('22222222 ')
f.close()
结果
11111111
22222222
--------------------------------------------------------------------------
4. 以列表的形式写,每次写都会覆盖之前的内容
f=open('b.txt','w',encoding='utf-8')
print(f.writelines(['11111 ','aaaa ','bbbb ']))
f.close()
结果
11111
aaaa
bbbb
----------------------------------------------------------------------------------------
文件的 a 模式,,文件不存在,就新建, ,如果文件存在,就不动之前的文件,
在 a 的模式下,写 是追加的方式写,
1.
f=open('b.txt','a',encoding='utf-8')
print(f.write('44444 '))
print(f.write('555555 '))
f.close()
结果
11111
cccc
bbbb
44444
555555 追加,
----------------------------------------------------------------------------
2.查看文件的关闭状态
f=open('b.txt','r',encoding='utf-8')
f.close() ------关闭文件
print(f.closed) --------查看文件是否关闭
结果----True 关闭
--------------------------------------------------------------------------------
3.
f=open('b.txt','r',encoding='utf-8') -----查看文件的名字。编码格式
print(f.name,f.encoding)
print(f.readable()) ---- True 查看是否可读
print(f.writable()) ----- False 查看是否可写 ,读的模式下,不能读,写的模式下,可以
结果 b.txt utf-8
----------------------------------------------------------------------------
关于seek的操作
1.
f=open('c.txt','r',encoding='utf-8')
print(f.read(9)) ----read指定参数,就是从哪个字符开始读取,以字符为单位开始读取
结果
44444
555
c.txt的文件内容如下
文件内光标移动都是以字节为单位------seek,tell,read,truncate
用read命令时,读到文件最后,再读第二次就读不到了,
要把光标移到开头,就要用到 f.seek(),括号里加数字,表示位置
seek ()参数,0默认从头开始,1从当前开始,2从末尾开始
1.
f=open('c.txt','r',encoding='utf-8')
f.seek(12) --seek以字节为 读取单位,一个汉字是3个字节,12 代表了4
个汉字,所以结果就从 月开始显示
print(f.read())
结果
月44444
555555
44444
555555
-------------------------------------------------------------------------------------
2.
f=open('c.txt','r',encoding='utf-8')
print(f.seek(4))
print(f.tell())-----------tell告诉光标显示的位置
-------------------------------------------------------------------------------------------
3. 截断
f=open('c.txt','w',encoding='utf-8') -----一定要找 写 的模式下
print(f.truncate(2)) --------把文件从光标的位置开始向后截断,,但必须是在 写 的模式下
直接把截断,就没有了
---------------------------------------------------------------------------------------
4.
f=open('c.txt','w',encoding='utf-8')
f.write('1111111
')
f.write('1144444
')
f.write('11133333
')
f.write('1222222
')
print(f.truncate(3))----------------------把追加的都删除了,只有光标前的3个字节
----------------------------------------------------------------------------------
5.
f=open('c.txt','rb') --------,以rb的模式读,不需要再(encode编码)
print(f.read())
结果
b'xe5x8dxb3xe5xb0x86xe7xbbx93
xe6x9dx9fxe5xbcx80xe5xa7x8b
111111
222222
333333'
---------------------------------------------------------------------------------
6.
f=open('c.txt','rb')
print(f.read().decode('utf-8')) -----从utf-8解码(decode)
结果
练习.py
即将结束开始
111111
222222
333333
--------------------------------------------------------------------------
7.wb 模式写
f=open('c.txt','wb')
f.write('hello world') ----写文件,以bytes的形式写,字符串是Unicode,必须 encode(utf-8)
f.close()
结果
f.write('hello world')
TypeError: a bytes-like object is required, not 'str'
f=open('c.txt','wb') ---- wb 的模式,
f.write('hello world'.encode('utf-8')) ----写文件,必须是encode 编码后才能写到文件里
f.close()
-------------------------------------------------------------------------------
8.
复制文件的过程,
read_file=open('c.txt','rb') -----打开一个 文件,以读的方式,rb ,指定一个文件
write_file=open('c1.txt','wb') -----写文件,copy的结果,
write_file.write(read_file.read()) -----把写的内容从read的文件里读出来,
------------------------------------------------------------------------------
9.文件打开的位置 ,绝对路径,win里是双斜杠,可以加 r ,反转
---------------------------------------------------------------------------------------
10.
读取文件内容
f=open('c.txt','r',encoding='utf-8')
for line in f :
print(line, end='')
结果
hello world
alex
dddd
111
alex66666