zoukankan      html  css  js  c++  java
  • 字符编码跟文件处理

    一、字符编码

    1.文本编辑器读一个文件的三个过程:

    01、先启动文本编辑器

    02 、摁键编辑器会将文件的内容读入内存

      03 、将读入内存的内容显示到屏幕上

    Cpython解释器执行一个py文件的的三个过程

      01、先启动python解释器

      02、python解释器会将py文件的内容当成普通文本的内容读入内存

       03、开始解释执行刚刚读入内存的代码,识别python语法

    2、字符编码

      字符编码指的是字符转换成/编码成数字

      编码的过程一定要遵循一个标准,该标准是字符编码表

    字符-----------------------------编码-----------------------------------》》数字

    字符《《-------------------------------解码---------------------------------数字

    01、计算机最早是美国人生产的,最早的字符编码表是ASCII表:只能识别英文字符,用8bit对应一个英文字符

    一个英文字符====》1Bytes

    02、GBK表:可以识别中文字符、英文字符,也是用8bit对应一个英文字符,用18bit对应一个中文字符

    一个英文字符====》1Bytes             一个中文字符====》2Bytes

    03、每个国家都有自己的语言,这就有望于一个所有国家都通用的编码

    unicode表(内存中默认使用该编码):用2Bytes表示一个字符
    二个优点  1 、可以识别万国字符
    ​                  2、与各种编码字符编码的二进制数字都有对应关系

    04、utf-8全称Unicode Transformation Format:

    1个英文字符====》1Bytes
    1个中文字符====》3Bytes

    结论:

    1、 编码与解码
       字符--------编码--------》数字
       字符《--------解码--------数字

       unicode二进制========编码========》utf-8二进制
       unicode二进制《=======解码=========utf-8二进制

    2、内存中固定使用unicode编码,我们可以改变的是数据由内存刷到硬盘时采用的编码(应该采用utf-8)
    unicode的特点: 01、可以识别万国字符

                                   02、与各种字符编码的二进制数字都有对应关系

    3、解决乱码问题的核心:

    01、字符当初以什么编码存的,就应该以什么编码去读

    02、保证运行python程序的前两个阶段不乱码的解决方案:添加文件头
    ​                                                在文件首行添加#coding:文件当初存的字符编码

     

    4、python解释器默认的编码
    python3:默认utf-8
    python2:默认ASCII

     

    5、python3的字符串类型在内存中存成unicode格式的二进制

    unicode的二进制------编码encode------->gbk格式的二进制
    res=x.encode('gbk')
    res=x.encode('utf-8')
    print(res,type(res))

    unicode的二进制<------解码decode-------gbk格式的二进制
    m=res.decode('gbk')
    print(m)

     

    二、文件处理

    1、什么是文件

    文件是操作系统为应用程序或者用户提供一种操作硬盘的虚拟单位
    强调:
    ​              文件是操作系统提供的虚拟单位
    ​              应用程序或者用户对文件的读写操作其实都是向操作系统发送指令

    2、为何要用文件

    文件对应的硬盘空间,如果需要考虑永久保存数据那必须使用文件

    3、如何用文件

    路径问题
    绝对路径:
    window:    C:\a\b\c\d.txt
    linux:  /a/b/c/d.txt
    相对路径: 相对于当前执行文件所在文件夹
      a/b/c/d.txt

    01、 打开文件
    f=open(r'文件路径\a.txt',mode='rt',encoding='utf-8')
    print(f)

    02、 读/写文件
    data=f.read()
    print(data)

    03、 关闭文件
    f.close() # 向操作系统发送指令,让操作系统关闭打开的文件,回收操作系统资源
    print(f)
    f.read()

    04、上下文管理
    with open('a.txt',mode='rt',encoding='utf-8') as f:
    ​    data=f.read()
    ​    print(data)

    4、文件的打开模式

    1、基本介绍

    控制文件读写操作的模式

    r(默认)

    w

    a

    控制文件读写内容的模式(不能单独使用,必须与r,w,a连用)

    t(模式)

    b

    2、详细介绍

    控制文件读写操作的模式
    r(默认):只读模式,以该模式打开文件,当文件不存在时则报错,当文件存在时文件指针在文件开头
    with open('a.txt',mode='rt',encoding='utf-8') as f:
    ​    data=f.read()
    ​    print(data)

    是否可以读取:

        print(f.readable())#True

        print(f.writable())#False

    一行一行的打印:

        line=f.readline()

        print(line,end='')#打印一行

        line = f.readline()

        print(line,end='')#打印二行

        line = f.readline()

        print(line, end='')#打印三行#

        print(data,type(data))

    打印每一行:

        for line in f:

            print(line)

    每一行作为一个元素,打印出来是列表:

        print(f.readlines())

        pass

    w: 只写模式,以该模式打开文件,当文件不存在时创建一个空文档,当文件存在时清空文件内容,文件指针在文件开头

    with open('a.txt',mode='wt',encoding='utf-8') as f:

    判断可以不可以读写

        print(f.readable())#False

        print(f.writable())#True

        在打开了文件不关闭的情况下,连续的写入,新写的内容总是跟在老内容之后

        f.write('你瞅啥\n')

        f.write('瞅你那熊样\n')

        f.write('巴拉巴拉。。。\n')

        lines=['1111\n','2222\n','3333\n']

    循环写入

        for line in lines:

            f.write(line)

    或者:

        f.writelines(lines)

        f.write('aaaa\nbbb\ncccc\n')

    a: 只追加写模式,以该模式打开文件,当文件不存在时创建一个空文档,当文件存在时不清空文件内容,文件指针跳到文件末尾

    with open('c.txt',mode='at',encoding='utf-8') as f:

        f.write('你好阿斯蒂芬\n')

        f.write('adfasdf\n')

        f.writelines([1,2,3])#需要字符串才能写进文本

    控制文件读写内容的模式(不能单独使用,必须与r、w、a连用)

    t(默认):无论读写都是以字符为单位的,只能操作文本文件,必须指定encoding参数

    b:无论读写都是以bytes为单位的,可以操作所有文件,一定不能指定encoding参数

    with open('a.txt',mode='rb') as f:

        data=f.read()

    print(data,type(data))

    print(data.decode('utf-8'))

    with open('01.mp4',mode='rb') as f:

        data=f.read()

        print(data,type(data))

     

    with open('a.txt',mode='wb') as f:

        f.write('xxxxxxxxxxx'.encode('utf-8'))

    练习:拷贝文件小程序

    with open('01.mp4',mode='rb',) as read_f,\

            open(r'D:\1111.mp4',mode='wb') as write_f:

        data=read_f.read()

        write_f.write(data)

     

    了解:

    +:不能单独使用,必须与rwa连用,r+ w+ a+

    with open('a.txt','r+t',encoding='utf-8') as f:

        print(f.readable())

        print(f.writable())

        data=f.readline()

        print(data)

        f.write('刘清蒸')

     

    with open('a.txt','r+t',encoding='utf-8') as f:

        print(f.readable())

        print(f.writable())

        f.seek(10)

        print(f.tell())

        f.write('你好啊')

    5、文件修改的两种方式

    方式一:
    1. 以读的方式打开源文件
    2. 将文件内容一次性全读入内存,在内存完成修改
    3. 以写的方式打开源文件,然后将修改后的结果一次性写入源文件/
    总结:
    优点:在文件修改过程中硬盘只存在一份数据
    缺点:浪费内存

    with open('b.txt',mode='rt',encoding='utf-8') as f1:
      msg=f1.read()
      new_msg=msg.replace('alex','大SB')


    with open('b.txt',mode='wt',encoding='utf-8') as f2:
      f2.write(new_msg)

    方式二
    1. 以读的方式打开源文件,以写的方式打开一个临时文件
    2. 读取源文件的一行内容到内存中,将修改的结果写入临时文件,循环往复直到改
    3. 删除源文件,将临时文件重命名为源文件名
    优点:同一时间在内存中只有文件的一行内容,更节省内容
    缺点:在文件修改过程中硬盘只存在两份数据

    import os

    with open('b.txt',mode='rt',encoding='utf-8') as read_f,\
      open('.b.txt.swap',mode='wt',encoding='utf-8') as write_f:
      for line in read_f
          write_f.write(line.replace('大SB','alex'))


    os.remove('b.txt')
    os.rename('.b.txt.swap','b.txt')

    6、控制文件内指针移动

    强调:只有t模式下read(n),n代表字符个数,除此以外都是以字节为单位
    with open('a.txt',mode='rt',encoding='utf-8') as f:
      res=f.read(4)
      print(res)#字符个数4

    with open('a.txt',mode='rb') as f:
      res=f.read(3)
      print(res.decode('utf-8'))#字节数3

    with open('a.txt',mode='at',encoding='utf-8') as f:
      f.truncate(3)#除去3个字节后面全部删除

    f.seek():指针移动是以字节为单位的
    三种模式:只有0模式既可以在t下用也可以在b下用,而1、2两种模式只能在b模式下使用
    0(默认的):参照文件开头
    with open('a.txt',mode='rt',encoding='utf-8') as f:
      f.seek(3,0)
      print(f.tell())#指针所在字节数
      print(f.read())#指针之后的内容

    1:参照指针当前所在的位置
    with open('a.txt',mode='rb') as f:
      f.read(2)#此处在b模式下n就表示字节
      f.seek(4,1)#1表示参照指针当前的地方
      print(f.tell())#那么此处就是6个字节
      print(f.read().decode('utf-8'))

    2: 参照文件末尾
    with open('a.txt',mode='rb') as f:
      f.seek(-5,2)#末尾向左移动5个字节
      print(f.tell())#全部字节减去这5个字节
      print(f.read().decode('utf-8'))#就是读取的那5个字节

     

  • 相关阅读:
    linux命令学习(3):ls命令
    敏捷开发 我的经验(三)运转
    敏捷开发 我的经验(二)资源计算-以人为本
    敏捷开发 我的经验(一)基本概念
    docker 搭建ntp服务器
    非程序员误入
    简单测试服务器磁盘读写速度
    搭建问题二之您添加的站点已存在
    搭建遇到问题一之安装fileinfo扩展插件失败
    简单快速搭建视频网站
  • 原文地址:https://www.cnblogs.com/liubinliuliu/p/10374656.html
Copyright © 2011-2022 走看看