zoukankan      html  css  js  c++  java
  • 05-文件处理

    引入

    1、什么是文件

    文件是操作系统提供给用户/应用程序操作硬盘的一种虚拟的概念/接口
    
    用户/应用程序(open())
    操作系统(文件)
    计算机硬件(硬盘)

    2、为何要用文件

    用户/应用程序可以通过文件将数据永久保存的硬盘中
    即操作文件就是操作硬盘
    
    用户/应用程序直接操作的是文件,对文件进行的所有的操作,都是
    在向操作系统发送系统调用,然后再由操作将其转换成具体的硬盘操作

    3、如何用文件:open()

    控制文件读写内容的模式:t和b 强调:t和b不能单独使用,必须跟r/w/a连用 t文本(默认的模式) 1、读写都以str(unicode)为单位的 2、文本文件 3、必须指定encoding='utf-8' b二进制/bytes 控制文件读写操作的模式 r只读模式 w只写模式 a只追加写模式 +:r+、w+、a+

    一、文件基本操作

    一般操作:

    1、打开文件

    1.1 open()传参

    # windows路径分隔符问题
    # 因为分隔符“”在python中代表转义符,为确保能正确读出路径
    # 我们可采取以下两种策略
    
    例子:
    open('C:a.txt
    bcd.txt')
    # 解决方案一:推荐
    open(r'C:a.txt
    bcd.txt')
    # 解决方案二:
    open('C:/a.txt/nb/c/d.txt')

     1.2 open()的返回值

    f=open(r'aaa/a.txt',mode='rt',encoding="utf-8") # f的值是一种变量,占用的是应用程序的内存空间
    print(f)                                        # <_io.TextIOWrapper name='aaa/a.txt' mode='rt' encoding='utf-8'>
    x=int(10)                                       # f的存储于x的存储类似
    打开文件,由应用程序向操作系统发起系统调用open(...),操作系统打开该文件,对应一块硬盘空间,并返回一个文件对象赋值给一个变量f

     2、操作文件

    读/写文件,应用程序对文件的读写请求都是在向操作系统发送
    # 系统调用,然后由操作系统控制硬盘把输入读入内存、或者写入硬盘
    res=f.read()
    print(type(res))
    print(res)
    3、关闭文件
    因为若不关闭文件,操作系统会一直维持文件打开状态占用内存。
    若一直不关闭会有以下问题:
    1、操作系统可开文件数量有限,开太多无用文件会导致现有程序无法再打开更多文件。
    2、虽然有机制,一定时间内检测文件长期不活跃,则关闭,但是仍占用内存资源。
    f.close()                   # 回收操作系统资源
    print(f)                    # <_io.TextIOWrapper name='aaa/a.txt' mode='rt' encoding='utf-8'>
    f.read()                    # ValueError: I/O operation on closed file.
                                # 变量f存在,但是不能再读了
    del f                       # 回收应用程序资源

     with操作:

      其中del f一定要发生在f.close()之后,否则就会导致操作系统打开的文件无法关闭,白白占用资源, 而python自动的垃圾回收机制决定了我们无需考虑del f,

    这就要求我们,在操作完毕文件后,一定要记住f.close(),虽然我们如此强调,但是大多数读者还是会不由自主地忘记f.close(),考虑到这一点,python提供

    了with关键字来帮我们管理上下文。

    # f1---文件对象又称为文件句柄
    
    with open('a.txt',mode='rt') as f1:             # f1=open('a.txt',mode='rt')
        res=f1.read()
        print(res)

    with可同时打开多个文件:

    with open('a.txt',mode='rt',encoding="utf-8") as f1,
            open('b.txt',mode='rt',encoding="utf-8") as f2:
        res1=f1.read()
        res2=f2.read()
        print(res1)
        print(res2)
    
        # f1.close()
        # f2.close()

    二、文件编码模式与操作模式 

    2.1 控制文件读写内容的模式:

    t:
        1、读写都是以字符串(unicode)为单位
        2、只能针对文本文件
        3、必须指定字符编码,即必须指定encoding参数(没有指定encoding参数操作系统会使用自己默认的编码)
    b:binary模式
        1、读写都是以bytes为单位
        2、可以针对所有文件
        3、一定不能指定字符编码,即一定不能指定encoding参数
    总结:
    1、在操作纯文本文件方面t模式帮我们省去了编码与解码的环节,b模式则需要手动编码与解码,所以此时t模式更为方便
    2、针对非文本文件(如图片、视频、音频等)只能使用b模式
    3、不论是t模式还是b模式,都需要与操作模式连用,不可单独出现

    bytes类型转换补充:

    with open('h.txt', mode='wb') as f:
        # l = [
        #     '1111aaa1
    '.encode('utf-8'),
        #     '222bb2'.encode('utf-8'),
        #     '33eee33'.encode('utf-8')
        # ]
    
        # 补充1:如果是纯英文字符,可以直接加前缀b得到bytes类型
        # l = [
        #     b'1111aaa1
    ',
        #     b'222bb2',
        #     b'33eee33'
        # ]
    
        # 补充2:'上'.encode('utf-8') 等同于bytes('上',encoding='utf-8')
        l = [
            bytes('上啊',encoding='utf-8'),
            bytes('冲呀',encoding='utf-8'),
            bytes('小垃圾们',encoding='utf-8'),
        ]
        f.writelines(l)

    2.2控制文件操作的模式

    r---只读模式

    # 1、r(默认的操作模式):只读模式,当文件不存在时报错,当文件存在时文件指针跳到开始位置
    with open('c.txt',mode='rt',encoding='utf-8') as f:
        print('第一次读'.center(50,'*'))
        res=f.read()                         # 把所有内容从硬盘读入内存
        print(res)
    
    # with open('c.txt', mode='rt', encoding='utf-8') as f:
        print('第二次读'.center(50,'*'))
        res1=f.read()
        print(res1)

    w---只写模式

    # 2、w:只写模式,当文件不存在时会创建空文件,当文件存在会清空文件,指针位于开始位置
    with open('d.txt',mode='wt',encoding='utf-8') as f:
        f.read() # 报错,不可读
        f.write('擦勒
    ')
    
    # 强调1:
    # 在以w模式打开文件没有关闭的情况下,连续写入,新的内容总是跟在旧的之后
    with open('d.txt',mode='wt',encoding='utf-8') as f:
        f.write('擦勒1
    ')
        f.write('擦勒2
    ')
        f.write('擦勒3
    ')
    
    # 强调2:
    # 如果重新以w模式打开文件,则会清空文件内容
    with open('d.txt',mode='wt',encoding='utf-8') as f:
        f.write('擦勒1
    ')
    with open('d.txt',mode='wt',encoding='utf-8') as f:
        f.write('擦勒2
    ')
    with open('d.txt',mode='wt',encoding='utf-8') as f:
        f.write('擦勒3
    ')

    a---只追加模式

    # 3、a:只追加写,在文件不存在时会创建空文档,在文件存在时文件指针会直接调到末尾
    with open('e.txt',mode='at',encoding='utf-8') as f:
        # f.read() # 报错,不能读
        f.write('擦嘞1
    ')
        f.write('擦嘞2
    ')
        f.write('擦嘞3
    ')
    
    # 强调 w 模式与 a 模式的异同:
    # 1 相同点:在打开的文件不关闭的情况下,连续的写入,新写的内容总会跟在前写的内容之后
    # 2 不同点:以 a 模式重新打开文件,不会清空原文件内容,会将文件指针直接移动到文件末尾,新写的内容永远写在最后

    +---只可与r、w、a模式连用,增加子代码块中可对文件进行的操作:

    with open('h.txt', mode='w+t',encoding='utf-8') as f:
        print(f.readable())         # True 是否可读
        print(f.writable())         # True 是否可写
        print(f.encoding)           # utf-8 打印编码格式
        print(f.name)               # h.txt 打印文件名
    
    print(f.closed)                 # 文件已关闭

    x---只写模式【不可读;文件不存在则创建,存在则报错】

    with open('d.txt',mode='x',encoding='utf-8') as f:
        f.write('哈哈哈
    ')

    三、文件的其他操作

    3.1 读相关操作

    1、readline:一次读一行

    with open(r'g.txt',mode='rt',encoding='utf-8') as f:
        # res1=f.readline()
        # res2=f.readline()
        # print(res2)
    
        while True:
            line=f.readline()
            if len(line) == 0:
                break
            print(line)

    2、readlines:将文件一次性读入内存,并按行存入列表

    with open(r'g.txt',mode='rt',encoding='utf-8') as f:
        res=f.readlines()
        print(res)                              #  ['111
    ', '222
    ', '333
    ', '444
    ', '5555']
    # 强调:
    # f.read()与f.readlines()都是将内容一次性读入内存,如果内容过大会导致内存溢出,若还想将内容全读入内存,则必须分次读入。

    3.2 写相关操作

    1、writelines:传入一个列表类型,各元素按行写入文件

    with open('h.txt',mode='wt',encoding='utf-8') as f:
        # f.write('1111
    222
    3333
    ')
    
        # l=['11111
    ','2222','3333',4444]
        l=['11111
    ','2222','3333']
        # for line in l:
        #     f.write(line)
        f.writelines(l)
    with open('h.txt', mode='wb') as f:
        # l = [
        #     '1111aaa1
    '.encode('utf-8'),
        #     '222bb2'.encode('utf-8'),
        #     '33eee33'.encode('utf-8')
        # ]
        l = [
            bytes('上啊',encoding='utf-8'),
            bytes('冲呀',encoding='utf-8'),
            bytes('小垃圾们',encoding='utf-8'),
        ]
        f.writelines(l)

    3.3 flush

    flush() 方法是用来刷新缓冲区的,即将缓冲区中的数据立刻写入文件,同时清空缓冲区,不需要被动的等待输出缓冲区写入。
    一般情况下,文件关闭后会自动刷新缓冲区,但有时你需要在关闭前刷新它,这时就可以使用 flush() 方法。
    with open('h.txt', mode='wt',encoding='utf-8') as f:
        f.write('')
        f.flush()

    3.4 其他函数操作

    这些函数大多在嵌套打开多个文件时,查看文件属性。
    是否以关闭或是否可读,变量名所保存的文件对象(文件句柄)是对应哪个文件的。
    with open('h.txt', mode='wt',encoding='utf-8') as f:
        print(f.readable())         # False 是否可读
        print(f.writable())         # True 是否可写
        print(f.encoding)           # utf-8 打印编码格式
        print(f.name)               # h.txt 打印文件名
    
    print(f.closed)                 # True 已关闭
    
    
    

    四、文件的高级操作:控制文件指针的移动

    4.1 文件中指针的移动

    # 指针移动的单位都是以bytes/字节为单位
    # 只有一种情况特殊:
    #       t模式下的read(n),n代表的是字符个数
    
    with open('aaa.txt',mode='rt',encoding='utf-8') as f:
        res=f.read(4)                                       # 此处的4,代表以指针位置为起点,向后读取四个字符
        print(res)

    4.2 seek函数

    # f.seek(n,模式):n指的是移动的字节个数
    # 模式:
    # 模式0:参照物是文件开头位置
    f.seek(9,0)
    f.seek(3,0)             # 3
    
    # 模式1:参照物是当前指针所在位置
    f.seek(9,1)
    f.seek(3,1)             # 12
    
    # 模式2:参照物是文件末尾位置,应该倒着移动
    f.seek(-9,2)            # 3
    f.seek(-3,2)            # 9
    
    # 强调:只有0模式可以在t下使用,1、2必须在b模式下用
    
    f.tell() # 获取文件指针当前位置

    示例:

    with open('aaa.txt',mode='rb') as f:
        f.seek(9,0)
        f.seek(3,0)
        print(f.tell())                   # tell()函数,表示指针位置(第几个字节)。3
        # f.seek(4,0)                     # 刚好截断了表示中文字符的两个字节
        # 'utf-8' codec can't decode byte 0xbd in position 0: invalid start byte
        res=f.read()
        print(res.decode('utf-8'))

     五、文件修改的两种方式

    方式一:文本编辑采用的就是这种方式
    实现思路:将文件内容发一次性全部读入内存,然后在内存中修改完毕后再覆盖写回原文件
    优点: 在文件修改过程中同一份数据只有一份
    缺点: 会过多地占用内存
    with open('c.txt',mode='rt',encoding='utf-8') as f:
        res=f.read()
        data=res.replace('alex','dsb')
        print(data)
    
    with open('c.txt',mode='wt',encoding='utf-8') as f1:
        f1.write(data)

      方式二:

    实现思路:以读的方式打开原文件,以写的方式打开一个临时文件,一行行读取原文件内容,修改完后写入临时文件...,删掉原文件,将临时文件重命名原文件名
    优点: 不会占用过多的内存
    缺点: 在文件修改过程中同一份数据存了两份
    with open('c.txt', mode='rt', encoding='utf-8') as f, 
            open('.c.txt.swap', mode='wt', encoding='utf-8') as f1:
        for line in f:
            f1.write(line.replace('alex', 'dsb'))
    
    os.remove('c.txt')
    os.rename('.c.txt.swap', 'c.txt')


    PS:

    最后,补充一点。当open()执行时,文件中的内容仍在硬盘之中,此处在内存中存的只是指向这块内存的一个文件类型数据,直到我们调用.read()函数,才将文件内容读入内存。
     
     
  • 相关阅读:
    博客
    NFS服务配置
    LAMP环境搭建与配置
    Linux系统管理技巧(下)
    Linux系统管理技巧(上)
    LVM
    安装RPM包或源码包
    Linux第四章 文件和目录管理
    MySQL主从配置 : 配置主和从(一) 配置主
    MySQL主从配置:主从介绍
  • 原文地址:https://www.cnblogs.com/zhubincheng/p/12488647.html
Copyright © 2011-2022 走看看