zoukankan      html  css  js  c++  java
  • 六、字符编码、文件

    一、字符编码

    1. 计算机系统分为三层:

      应用软件

      操作系统

      硬件

    2.
    文本编辑器读一个文件的三个过程:

      1. 先启动文本编辑器

      2. 文件编辑器会将文件内容读入内存

      3. 将读入内存的内容显示到屏幕上

    Cpython解释器执行一个py文件的三个过程:

      1. 先启动python解释器

      2. python解释器会将py文件的内容当中普通的文本内容读入内存

      3. 开始解释执行刚刚读入内存的代码,识别python

    3. 字符编码
    字符编码指的是字符转换成/编码成数字
    编码的过程一定要遵循一个标准,该标准称之为字符编码表

    字符--------编码--------》数字
    字符《--------解码--------数字

     

     

    1. ASCII表:只能识别英文字符,用8bit对应一个英文字符

      1个英文字符====>1Bytes

    2. GBK表:可以识别中文字符、英文字符,用8bit对应一个英文字符,用16个bit对应一个中文字符

        1个英文字符====>1Bytes

        1个中文字符====>2Bytes


    3. unicode(内存中默认使用该编码):用2Bytes表示一个字符

      1. 可以识别万国字符

      2. 与各种字符编码的二进制数字都有对应关系


    4. utf-8全称Unicode Transformation Format:
      1个英文字符====>1Bytes
      1个中文字符====>3Bytes

     

    结论:
    1、 编码与解码
      字符--------编码--------》数字
      字符《--------解码--------数字

      unicode二进制========编码========》utf-8二进制
      unicode二进制《=======解码=========utf-8二进制


    2. 内存中固定使用unicode编码,我们可以改变的是数据由内存刷到硬盘时采用的编码(应该采用utf-8)
      unicode的特点:
        1. 可以识别万国字符
        2. 与各种字符编码的二进制数字都有对应关系


    3. 解决乱码问题的核心:
      1. 字符当初以什么编码存的,就应该以什么编码去读
      2. 保证运行python程序的前两个阶段不乱码的解决方案:添加文件头
    在文件首行添加#coding:文件当初存的字符编码

     

    4. python解释器默认的编码
      python3:默认utf-8
      python2:默认ASCII

     

    5.
      python3的字符串类型在内存中存成unicode格式的二进制

    二、文件

    1、什么是文件

      文件是操作系统为应用程序或者用户提供一种操作硬盘的虚拟单位

      强调:

        文件是操作系统提供的虚拟单位

        应用程序或者用户对文件的读写操作其实都是向操作系统发送指令

    2、为何要用文件

      文件对应的硬盘空间,如果需要考虑永久保存数据那必须使用文件

    3、如何用文件

      路径

        绝对路径:c:ac、d.txt(Windows)

                      /a/b/c/d.tx(Linux)

        相对路径:相对于当前执行文件所在文件夹

                 /a/b/c/d.txt

      1、打开文件

         f=open('a.txt',mode='r',mode='rt',encoding=‘utf-8)   #应用程序开辟一块应用程序的内存空间

            print(f)

      2、读写文件

        读:

          f.read()         #像操作系统发送指令,从硬盘读取数据到应用程序的内存

          f.write()

          f.readline()    #一行行读

          for line in f:

            print(line)

          f.readlines     #全部读,列表形式

          f.readable()    #True  False

        写:

          f.write()   #

          f.writelines()

      3、关闭文件

        f.close()  #像操作系统发送指令,让操作系统回收打开的文件,回收操作系统资源

      rt模式:读文件时,文件存的用什么编码,就用什么编码去读

      应用程序(占用资源,应用程序自动回收)-------------->操作系统(占用资源,f.close()回收)-------------->系统硬盘

      应用程序(开辟一块应用程序的内存空间)向操作系统发送指令(开辟一块操作系统空间),从硬盘读取数据到应用程序的内存,读完就f.close(),操作系统资源被回收;应用程序的内存是pycharm自动回收

      上下文管理

        with open('a.txt',mode='rt',encoding='utf-8') as f:

          data=f.read()

          print(data)

      4、文件的打开模式

        #控制文件操作的模式

        r(默认rt):只读模式,以该模式打开文件,当文件不存在时,报错;当文件存在时,文件指针在文件开头

        w:

        a:

        #控制文件操作内容的模式(不能单独使用,必须与r、w、a连用)

        t(默认):文本模式,无论读写都是以字符为单位的,只能操作文本文件,必须指定encoding参数

        b:二进制模式,无论读写都是bytes为单位的,能操作所有文件,一定不能指定encoding

      5、文件的写入模式

        w:只写模式,以该模式打开文件,当文件不存在时创建一个空文档;当文件存在时清空文件内容,文件指针在文件开头    

             在打开了文件不关闭的情况下,连续的写入,新写的内容总是跟在老内容之后

            f.write('哈哈哈 ')

            f.write('小仙女 ')

          l=['111 ','222 ','333 ']

          for line in lines:

            f.write(line)

          

              f.writelines(lines)

            f.write('aaa bbb ccc ')    

        a:只追加写模式,以该模式打开文件,当文件不存在时创建一个空文档;当文件存在时不清空文件内容,文件指针跳到文件末尾

          with open('a.txt',mode='at',encoding='utf-8') as f:

              f.write('接口方面和方法 ')

              f.write('hfffjrglle ')

              f.writelines([1,2,3])

          with open('a.txt',mode='rb') as f:

              data=f.read()

              print(data,type(data))

      

      6、拷贝文件小程序

          with open(‘01.mp4’,mode='rb') as read_f:

              open(r'D:\1111.mp4',mode='wb') as write_f:

            data=read_f.read()

            write_f.write(data)

      7、文件修改的两种方式

        方式一:

          1、以读的方式打开源文件

          2、将文件内容一次性全读入内存,在内存完成修改

          3、以写的方式打开源文件,然后将修改后的结果一次性写入源文件

          优点:在文件修改过程中硬盘只存在一份数据

          缺点:浪费内存

          with open('a.txt',mode='rt',encoding='utf-8') as f1:

            msg=f.read()

            new_msg=msg.replace('你好','哈哈哈')

          with open('a.txt',mode='wt',encoding='utf-8') as f2:

            f2.write(new_msg)

        方式二:

          1、以读的方式打开源文件,以写的方式打开一个临时文件

          2、读取源文件中的一行内容到内存中,将修改的结果写入临时文件,循环往复直到改完

          3、删除源文件,将临时文件重命名为源文件名

          优点:同一时间在内存中只有文件的一行内容,更节省内存

          缺点:在文件修改过程中硬盘中存在两份数据

          import os

          with open('a.txt',mode='rt',encoding='utf-8') as read_f:

            open('.a.txt.swap',mode='wt',encoding='utf-8') as write_f:

            for line in read_f:

              write_f.write(line.repalce('你好','哈哈哈'))

          os.remove('a.txt')

          os.rename('.a.txt.swap','a.txt')

    了解:

        +:不能单独使用,必须与rwa连用,r+ w+ a+
        with open('a.txt','r+t',encoding='utf-8') as f:
       print(f.readable())
       print(f.writable())

       data=f.readline()
       print(data)
      f.write('刘清蒸')

    4、控制文件内指针移动

      强调:只有t模式下read(n),n代表字符个数,除此以外都是以字节为单位
        with open('a.txt',mode='rt',encoding='utf-8') as f:
          res=f.read(4)
          print(res)

        with open('a.txt',mode='rb') as f:
          res=f.read(3)
          print(res.decode('utf-8'))

     

        with open('a.txt',mode='at',encoding='utf-8') as f:
          f.truncate(3)

     

        f.seek():指针移动是以字节为单位的
      三种模式:只有0模式既可以在t下用也可以在b下用,而1、2两种模式只能在b模式下使用
        0(默认的):参照文件开头
          with open('a.txt',mode='rt',encoding='utf-8') as f:
            f.seek(3,0)
            print(f.tell())
            print(f.read())

     

        1: 参照指针当前所在的位置
          with open('a.txt',mode='rb') as f:
            f.read(2)
            f.seek(4,1)
            print(f.tell())
            print(f.read().decode('utf-8'))

     

        2: 参照文件末尾
          with open('a.txt',mode='rb') as f:
            f.seek(-5,2)
            print(f.tell())
            print(f.read().decode('utf-8'))

      

     

        

  • 相关阅读:
    正则表达式的三种模式【贪婪、勉强、侵占】的分析
    php实用的文件上传类
    php简单实用的验证码生成类
    phpstorm不安装apache就可以本地测试PHP
    Ajax技术——带进度条的文件上传
    Mybatis 多表查询及查询结果映射
    关于textarea包在div的自适应问题
    Luogu P3200 [HNOI2009]有趣的数列
    群&置换群&burnside
    卡特兰树
  • 原文地址:https://www.cnblogs.com/lanlan999/p/10009714.html
Copyright © 2011-2022 走看看