zoukankan      html  css  js  c++  java
  • 文件处理和指针操作

    1. 文件处理

    1.1、什么是文件

    ​ 文件是操作系统提供给用户/应用程序操作硬盘的一种虚拟的概念/接口

    1.2、为何要用文件

    ​ 用户/应用程序可以通过文件将数据永久保存的硬盘中
    ​ 即操作文件就是操作硬盘

    用户/应用程序直接操作的是文件,对文件进行的所有的操作,都是
    在向操作系统发送系统调用,然后再由操作将其转换成具体的硬盘操作
    

    1.3、如何用文件:open()

    ​ 控制文件读写内容的模式:t和b
    ​ 强调:t和b不能单独使用,必须跟r/w/a连用

            t文本(默认的模式)
                1、读写都以str(unicode)为单位的
                2、文本文件
                3、必须指定encoding='utf-8'
    
            b二进制/bytes
    
        控制文件读写操作的模式
            r只读模式
            w只写模式
            a只追加写模式
            +:r+、w+、a+
    

    2. 文件的基本操作

    2.1、打开文件:open()

    windows路径分隔符问题
    open('C:a.txt
    bcd.txt')
    
    解决方案一:推荐
    路径前加r
    open(r'C:a.txt
    bcd.txt')
    解决方案二:
    open('C:/a.txt/nb/c/d.txt')
    
    f=open(r'aaa/a.txt',mode='rt')
    
    #f的值是一种变量,占用的是应用程序的内存空间
    print(f)
    x=int(10)
    

    2.2、操作文件:读/写文件,

    ​ 应用程序对文件的读写请求都是在向操作系统发送系统调用,然后由操作系统控制硬盘把输入读入内存、或者写入硬盘

    res=f.read()
    print(type(res))
    print(res)
    

    2.3、关闭文件:close()

    f.close() # 回收操作系统资源
    print(f)
    f.read() # 变量f存在,但是不能再读了
    
    del f     # 回收应用程序资源
    

    3. with上下文管理

    ​ 文件对象又称为文件句柄

    with open('a.txt',mode='rt') as f1,
            open('b.txt',mode='rt') as f2:
        res1=f1.read()
        res2=f2.read()
        print(res1)
        print(res2)
    

    4. 指定字符编码

    4.1 t和b不能单独使用,必须跟r/w/a连用

    • t文本(默认的模式)
    • 读写都以str(unicode)为单位的文本文件
    • 必须指定encoding='utf-8'

    4.2 没有指定encoding参数操作系统会使用自己默认的编码

    • linux系统默认utf-8
    • windows系统默认gbk
    with open('c.txt',mode='rt',encoding='utf-8') as f:
        res=f.read() # t模式会将f.read()读出的结果解码成unicode
        print(res,type(res))
    

    内存:utf-8 格式的二进制-----解码-----》unicode
    硬盘(c.txt内容:utf-8格式的二进制)

    5. 文件操作模式详细流程

    以t模式为基础进行内存操作

    5.1、r(默认的操作模式):只读模式

    当文件不存在时报错,当文件存在时文件指针跳到开始位置

    with open('c.txt',mode='rt',encoding='utf-8') as f:
        print('第一次读'.center(50,'*'))
        res=f.read() # 把所有内容从硬盘读入内存
        print(res)
    
    with open('c.txt', mode='rt', encoding='utf-8') as f:
    	print('第二次读'.center(50,'*'))
    	res1=f.read()
    	print(res1)
    

    案例

    inp_username=input('your name>>: ').strip()
    inp_password=input('your password>>: ').strip()
    
    验证
    
    with open('user.txt',mode='rt',encoding='utf-8') as f:
        for line in f:
    # print(line,end='') # egon:123
    
            username,password=line.strip().split(':')
            if inp_username == username and inp_password == password:
                print('login successfull')
                break
        else:
            print('账号或密码错误')
    
    

    应用程序====》文件
    应用程序====》数据库管理软件=====》文件

    5.2、w:只写模式,

    当文件不存在时会创建空文件,当文件存在会清空文件,指针位于开始位置

    with open('d.txt',mode='wt',encoding='utf-8') as f:
        f.read() # 报错,不可读
        f.write('擦勒
    ')
    
    

    强调1:在以w模式打开文件没有关闭的情况下,连续写入,新的内容总是跟在旧的之后

    with open('d.txt',mode='wt',encoding='utf-8') as f:
        f.write('擦勒1
    ')
        f.write('擦勒2
    ')
        f.write('擦勒3
    ')
    
    

    强调2:如果重新以w模式打开文件,则会清空文件内容

    with open('d.txt',mode='wt',encoding='utf-8') as f:
        f.write('擦勒1
    ')
    with open('d.txt',mode='wt',encoding='utf-8') as f:
        f.write('擦勒2
    ')
    with open('d.txt',mode='wt',encoding='utf-8') as f:
        f.write('擦勒3
    ')
    
    

    案例:w模式用来创建全新的文件

    #文件文件的copy工具
    
    src_file=input('源文件路径>>: ').strip()
    dst_file=input('源文件路径>>: ').strip()
    with open(r'{}'.format(src_file),mode='rt',encoding='utf-8') as f1,
        open(r'{}'.format(dst_file),mode='wt',encoding='utf-8') as f2:
        res=f1.read()
        f2.write(res)
    
    

    5.3、a:只追加写

    在文件不存在时会创建空文档,在文件存在时文件指针会直接调到末尾

    with open('e.txt',mode='at',encoding='utf-8') as f:
    # f.read() # 报错,不能读
        f.write('擦嘞1
    ')
        f.write('擦嘞2
    ')
        f.write('擦嘞3
    ')
    
    

    强调 w 模式与 a 模式的异同:

    1 .相同点:

    ​ 在打开的文件不关闭的情况下,连续的写入,新写的内容总会跟在前写的内容之后
    2 .不同点:

    ​ 以 a 模式重新打开文件,不会清空原文件内容,会将文件指针直接移动到文件末尾,新写的内容永远写在最后

    案例:

    a模式用来在原有的文件内存的基础之上写入新的内容,比如记录日志、注册
    注册功能
    name=input('your name>>: ')
    pwd=input('your name>>: ')
    with open('db.txt',mode='at',encoding='utf-8') as f:
        f.write('{}:{}
    '.format(name,pwd))
    
    

    了解:

    +不能单独使用,必须配合r、w、a

    with open('g.txt',mode='rt+',encoding='utf-8') as f:
    # print(f.read())
        f.write('中国')
    with open('g.txt',mode='w+t',encoding='utf-8') as f:
        f.write('111
    ')
        f.write('222
    ')
        f.write('333
    ')
        print('====>',f.read())
    with open('g.txt',mode='a+t',encoding='utf-8') as f:
        print(f.read())
    	f.write('444
    ')
    	f.write('5555
    ')
    	print(f.read())
    
    

    5.4、 x模式

    ​ x模式只新写模式,文件不可读,当文件不存在时,则创建文件,存在文件则报错

    #报错
    # with open('c.txt',mode='x',encoding='utf-8') as f:
    #     f.read()
    
    with open('d.txt',mode='x',encoding='utf-8') as f:
        f.write('哈哈哈
    ')
    
    

    5.5、b模式(binary)

    • 读写都是以bytes为单位(内存与硬盘互传时会自动转码)
    • 可以操作所有文件
    • 无需指定字符编码(不能指定encoding参数)

    小结(与t模式相比):

    • 在操作纯文本文件方面t模式帮我们省去了编码与解码的环节,b模式则需要手动编码与解码,所以此时t模式更为方便
    • 针对非文本文件(如图片、视频、音频等)只能使用b模式
    #错误演示:t模式只能读文本文件
    with open(r'爱nmlgb的爱情.mp4',mode='rt') as f:
    # 硬盘的二进制读入内存-》t模式会将读入内存的内容进行decode解码操作
        f.read() 
    
    with open(r'test.jpg',mode='rb',encoding='utf-8') as f:
    # 硬盘的二进制读入内存—>b模式下,不做任何转换,直接读入内存
    	res=f.read() 
        print(res) # bytes类型—》当成二进制
    
    with open(r'b.txt',mode='rb') as f:
        res = f.read()    # 硬盘的二进制读入内存 --> b模式下,不做任何转换,直接读入内存
        print(res,type(res))
    
        print(res.decode('utf-8'))
    
      b.txt内容是:“哈哈哈”
      输出b'xe5x93x88xe5x93x88xe5x93x88' 16进制显示
      说明,utf-8格式下,一个中文字符,对应3个bytes
    
    

    同个文件中,编码最好保持一致

    错误案例
    with open(r'b.txt',mode='wt',encoding='utf-8') as f:
        f.write('你好hello'.encode('utf-8'))
        f.write('哈哈哈'.encode('gbk'))
    
    

    6. 文件拷贝工具

    src_file=input('源文件路径>>: ').strip()
    dst_file=input('源文件路径>>: ').strip()
    with open(r'{}'.format(src_file),mode='rb') as f1,
        open(r'{}'.format(dst_file),mode='wb') as f2:
        # res=f1.read() # 内存占用过大
        # f2.write(res)
    
        for line in f1:
            f2.write(line)
    
    

    7. 循环读取文件

    • ​ 方式一:自己控制每次读取的数据的数据量
    with open(r'test.jpg',mode='rb') as f:
        while True:
            res=f.read(1024) # 1024
            if len(res) == 0:
                break
            print(len(res))
    
    
    • ​ 方式二:以行为单位读,当一行内容过长时会导致一次性读入内容的数据量过大
    with open(r'g.txt',mode='rt',encoding='utf-8') as f:
        for line in f:
            print(len(line),line)
    
    with open(r'g.txt',mode='rb') as f:
        for line in f:
            print(line)
    #Windows模式下,换行符是 "
    "
    
    

    8. 操作文件的方法

    8.1 读操作

    f.read()

    ​ 读取所有内容,执行完该操作后,文件指针会移动到文件末尾

    f.readline()

    ​ 一次读取一行内容,光标移动到第二行首部

    f.readlines()

    ​ 读取每一行内容,存放于列表中

    with open(r'g.txt',mode='rt',encoding='utf-8') as f:
        # res1=f.readline()
        # res2=f.readline()
        # print(res2)
    
        while True:
            line=f.readline()
            if len(line) == 0:
                break
            print(line)
            
    with open(r'g.txt',mode='rt',encoding='utf-8') as f:
        res=f.readlines()
        print(res)
    
    

    强调:

    f.read()与f.readlines()都是将内容一次性读入内存,如果内容过大会导致内存溢出,若还想将内容全读入内存,则必须分多次读入

    8.2 写操作

    f.writelines():

    with open('h.txt',mode='wt',encoding='utf-8') as f:
        # f.write('1111
    222
    3333
    ')
        # 针对写操作,需要自己写换行符
    
        # l=['11111
    ','2222','3333',4444]
        #b模式写不能把str和int格式的内容直接写入文件,会报错
        #TypeError: write() argument must be str, not int
        l=['11111
    ','2222
    ','3333
    ']
        # for line in l:
        #     f.write(line)
        f.writelines(l)# 把每行内容加上换行符为元素组成列表,实现分行写入
    
    

    补充1:如果是纯英文字符,可以直接加前缀b得到bytes类型

    补充2:'上'.encode('utf-8') 等同于bytes('上',encoding='utf-8')

    #三种方式相同
    	l = [
            b'1111aaa1
    ',
            b'222bb2',
            b'33eee33'
        ]
        l = [
            '上啊'.encode('utf-8'),
            '冲呀'.encode('utf-8'),
            '小垃圾们'.encode('utf-8'),
        ]
        l = [
            bytes('上啊',encoding='utf-8'),
            bytes('冲呀',encoding='utf-8'),
            bytes('小垃圾们',encoding='utf-8'),
        ]
        f.writelines(l)
    
    

    flush():立刻存入

    with open('h.txt', mode='wt',encoding='utf-8') as f:
        f.write('哈')
        f.flush()
    #对于内存而言,本身会尽量减少i/o操作次数,所以对于需要写入硬盘中的内容,有时不会立马存入,而是等攒到一定的数量的数据后在执行
    #而flush会立马执行写入硬盘的操作,正常情况下,没有必要
    
    

    其他操作

    with open(r'l.txt', mode='wt', encoding='utf-8')as f:
        print(f.readable())  # 是否可读
        print(f.writable())  # 是否写
        print(f.encoding)  # 使用何种编码,此处为 utf-8
        print(f.name)  # 文件名,l.txt
        print(f.closed)  # 文件是否关闭,
    
    

    9.文件高级操作之指针移动

    9.1、指针移动单位:

    • 大部分情况下指针移动都是以Bytes为单位。
    • 只有在t模式下的read(n),n代表的是字符个数。

    9.2、tell():

    获取文件指针当前位置并返回。

    9.3、seek():

    seek功能分0/1/2三种模式,

    分别代表指针的起始位置为,开头/当前位置/末尾。

    只有0模式可以在t模式下使用。其他模式只支持b模式。

    模式0:

    #参照物是文件开头位置
    f.seek(9,0)
    f.seek(3,0) # 3
    
    

    模式1:

    #参照物是当前指针所在位置
    f.seek(9,1)
    f.seek(3,1) # 12
    
    

    模式2:

    #参照物是文件末尾位置,应该倒着移动
    f.seek(-9,2) # 3
    f.seek(-3,2) # 9
    
    

    9.4 seek()的运用

    import time
    
    with open('access.log', mode='rb') as f:
        # 1、将指针跳到文件末尾
        # f.read() # 错误
        f.seek(0,2)
    
        while True:
            line=f.readline()
            if len(line) == 0:
                time.sleep(0.3)
            else:
                print(line.decode('utf-8'),end='')
    #追加内容
    with open('access.log', mode='at', encoding='utf-8') as f:
        f.write('20200311111112 yyy转账200w
    ')
    
    

    10. 文件修改的两种方式

    1 方式一:文本编辑

    实现思路

    ​ 将文件内容发一次性全部读入内存,然后在内存中修改完毕后再覆盖写回原文件

    优点

    ​ 在文件修改过程中同一份数据只有一份

    缺点

    ​ 会过多地占用内存

    with open('c.txt',mode='rt',encoding='utf-8') as f:
        res=f.read()
        data=res.replace('alex','dsb')
        print(data)
    
    with open('c.txt',mode='wt',encoding='utf-8') as f1:
        f1.write(data)
    
    

    2 方式二

    实现思路

    ​ 以读的方式打开原文件,以写的方式打开一个临时文件,一行行读取原文件内容,修改完后写入临时文件...,删掉原文件,将临时文件重命名原文件名

    优点

    ​ 不会占用过多的内存

    缺点

    ​ 在文件修改过程中同一份数据存了两份

    import os
    with open('c.txt', mode='rt', encoding='utf-8') as f, 
            open('.c.txt.swap', mode='wt', encoding='utf-8') as f1:
        for line in f:
            f1.write(line.replace('alex', 'dsb'))
    
    os.remove('c.txt')
    os.rename('.c.txt.swap', 'c.txt')
    
  • 相关阅读:
    对C++类的继承和派生的理解
    排序算法 之 归并排序
    排序算法 之 冒泡排序
    排序算法 之 选择排序
    排序算法 之 插入排序
    排序算法 之 快速排序
    进程和线程
    C++ 之 强制转换
    C++ 之 智能指针
    C++ STL 之 分配器(allocator)
  • 原文地址:https://www.cnblogs.com/Henry121/p/12488505.html
Copyright © 2011-2022 走看看