zoukankan      html  css  js  c++  java
  • python 文件操作

    一、普通文件(无后缀名)

    1.1 对文件操作流程

    1. 打开文件,得到文件句柄并赋值给一个变量

    2. 通过句柄对文件进行操作

    3. 关闭文件

      现有文件如下:

    昨夜寒蛩不住鸣。
    惊回千里梦,已三更。
    起来独自绕阶行。
    人悄悄,帘外月胧明。
    白首为功名,旧山松竹老,阻归程。
    欲将心事付瑶琴。
    知音少,弦断有谁听。
    
    f = open('小重山') #打开文件
    data=f.read()#获取文件内容
    f.close() #关闭文件 ,如果没有关闭,那在写文件的话,只到缓存,没有到硬盘。
    

    ​ 注意 if in the win,hello文件是utf8保存的,打开文件时open函数是通过操作系统打开的文件,而win操作系统默认的是gbk编码,所以直接打开会乱码,需要f=open('hello',encoding='utf8'),hello文件如果是gbk保存的,则直接打开即可。

    1.2 文件打开模式

    ========= ===============================================================
        Character Meaning
        --------- ---------------------------------------------------------------
        'r'       open for reading (default)
        'w'       open for writing, truncating the file first
        'x'       create a new file and open it for writing
        'a'       open for writing, appending to the end of the file if it exists
        'b'       binary mode
        't'       text mode (default)
        '+'       open a disk file for updating (reading and writing)
        'U'       universal newline mode (deprecated)
        ========= ===============================================================
    

    ​ 先介绍三种最基本的模式:r(只可读) w(只可写) a(追加)

    f = open('小重山2','w') #打开文件,清空后再写
    f = open('小重山2','a') #打开文件,追加
    f.write('莫等闲1
    ')
    f.write('白了少年头2
    ')
    f.write('空悲切!3')
    

    1.3 文件具体操作

    def read(self, size=-1): # known case of _io.FileIO.read
            """
            注意,不一定能全读回来
            Read at most size bytes, returned as bytes.
    
            Only makes one system call, so less data may be returned than requested.
            In non-blocking mode, returns None if no data is available.
            Return an empty bytes object at EOF.
            """
            return ""
    
    def readline(self, *args, **kwargs):
            pass
    
    def readlines(self, *args, **kwargs):
            pass
    
    
    def tell(self, *args, **kwargs): # real signature unknown
            """
            Current file position.
    
            Can raise OSError for non seekable files.
            """
            pass
    
    def seek(self, *args, **kwargs): # real signature unknown
            """
            Move to new file position and return the file position.
    
            Argument offset is a byte count.  Optional argument whence defaults to
            SEEK_SET or 0 (offset from start of file, offset should be >= 0); other values
            are SEEK_CUR or 1 (move relative to current position, positive or negative),
            and SEEK_END or 2 (move relative to end of file, usually negative, although
            many platforms allow seeking beyond the end of a file).
    
            Note that not all file objects are seekable.
            """
            pass
    
    def write(self, *args, **kwargs): # real signature unknown
            """
            Write bytes b to file, return number written.
    
            Only makes one system call, so not all of the data may be written.
            The number of bytes actually written is returned.  In non-blocking mode,
            returns None if the write would block.
            """
            pass
    
    def flush(self, *args, **kwargs):
            pass
    
    
    def truncate(self, *args, **kwargs): # real signature unknown
            """
            Truncate the file to at most size bytes and return the truncated size.
    
            Size defaults to the current file position, as returned by tell().
            The current file position is changed to the value of size.
            """
            pass
    
    
    def close(self): # real signature unknown; restored from __doc__
                """
                Close the file.
    
                A closed file cannot be used for further I/O operations.  close() may be
                called more than once without error.
                """
                pass
    ##############################################################less usefull
        def fileno(self, *args, **kwargs): # real signature unknown
                """ Return the underlying file descriptor (an integer). """
                pass
    
        def isatty(self, *args, **kwargs): # real signature unknown
            """ True if the file is connected to a TTY device. """
            pass
    
        def readable(self, *args, **kwargs): # real signature unknown
            """ True if file was opened in a read mode. """
            pass
    
        def readall(self, *args, **kwargs): # real signature unknown
            """
            Read all data from the file, returned as bytes.
    
            In non-blocking mode, returns as much as is immediately available,
            or None if no data is available.  Return an empty bytes object at EOF.
            """
            pass
    
        def seekable(self, *args, **kwargs): # real signature unknown
            """ True if file supports random-access. """
            pass
    
    
        def writable(self, *args, **kwargs): # real signature unknown
            """ True if file was opened in a write mode. """
            pass
    

    操作方法介绍

    f = open('小重山') #打开文件
    # data1=f.read()#获取文件内容
    # data2=f.read()#获取文件内容
    #
    # print(data1)
    # print('...',data2)
    # data=f.read(5)#获取文件内容,汉字在这里占一个单位(in Py3)
     
    # data=f.readline()  #无论是read()还是readline(),光标会发生位置变化
    # print(f.__iter__().__next__())
    # for i in range(5):
    #     print(f.readline())
     
    # data=f.readlines()['昨夜寒蛩不住鸣。
    ', '惊回千里梦,已三更。
    ', '起来独自绕阶行。
    ', '人悄悄,帘外月胧明。
    ', '白首为功名,旧山松竹老,阻归程。
    ', '欲将心事付瑶琴。
    ', '知音少,弦断有谁听。']
     
    # for line in f.readlines():
    #     print(line)
     
     
    # 问题来了:打印所有行,另外第3行后面加上:'end 3'
    # for index,line in enumerate(f.readlines()):
    #     if index==2:
    #         line=''.join([line.strip(),'end 3'])
    #     print(line.strip())
     
    #切记:以后我们一定都用下面这种
    # count=0 
    # for line in f:          # 这是for内部将 f 对象做成一个迭代器,用一行去一行。
    #     if count==3: 
    #         line=''.join([line.strip(),'end 3'])
    #     print(line.strip())
    #     count+=1
     
    # print(f.tell())
    # print(f.readline())
    # print(f.tell())       #tell对于英文字符就是占一个,中文字符占三个,区分与read()的不同.
    # print(f.read(5))      #一个中文占三个字节
    # print(f.tell())
    # f.seek(0)             #跟tell相对,人为设定位置
    # print(f.read(6))     #read后不管是中文字符还是英文字符,都统一算一个单位,read(6),此刻就读了6个中文字符
     
    #terminal上操作:
    f = open('小重山2','w')
    # f.write('hello 
    ')
    # f.flush()              #flush():同步把将数据从缓存转移到磁盘上去
    # f.write('world')
     
    # 应用:进度条
    # import time,sys
    # for i in range(30):
    #     sys.stdout.write("*")
    #     # sys.stdout.flush()
    #     time.sleep(0.1)
    
    # import sys,time
    # for i in range(30):
    #    print('*',end='',flush=True)
    #    time.sleep(0.1)
    
    
    # f = open('小重山2','w')
    # f.truncate()           #全部截断
    # f.truncate(5)          #之后的全截断,光标跟seek一样,按字节算,不按字符算。这里5会出乱码,因为汉字是3个字节一个字符
     
     
    # print(f.isatty())      # isatty() 方法检测文件是否连接到一个终端设备,如果是返回 True,否则返回 False。
    # print(f.seekable())
    # print(f.readable())
     
    f.close() #关闭文件
    

    接下来我们继续扩展文件模式:

    # f = open('小重山2','w') #打开文件
    # f = open('小重山2','a') #打开文件
    # f.write('莫等闲1
    ')
    # f.write('白了少年头2
    ')
    # f.write('空悲切!3')
     
     
    # f.close()
     
    #r+,w+模式
    # f = open('小重山2','r+') #以读写模式打开文件
    # print(f.read(5))#可读
    # f.write('hello')
    # print('------')
    # print(f.read())
     
     
    # f = open('小重山2','w+') #以写读模式打开文件
    # print(f.read(5))#什么都没有,因为先格式化了文本
    # f.write('hello alex')
    # print(f.read())#还是read不到
    # f.seek(0)
    # print(f.read())
     
    #w+与a+的区别在于是否在开始覆盖整个文件
     
     
    # ok,重点来了,我要给文本第三行后面加一行内容:'hello 岳飞!'
    # 有同学说,前面不是做过修改了吗? 大哥,刚才是修改内容后print,现在是对文件进行修改!!!
    # f = open('小重山2','r+') #以写读模式打开文件
    # f.readline()
    # f.readline()
    # f.readline()
    # print(f.tell())
    # f.write('hello 岳飞')
    # f.close()
    # 和想的不一样,不管事!那涉及到文件修改怎么办呢?
     
    # f_read = open('小重山','r') #以写读模式打开文件
    # f_write = open('小重山_back','w') #以写读模式打开文件
     
    # count=0
    # for line in f_read:
        # if count==3:
        #     f_write.write('hello,岳飞
    ')
        #
        # else:
        #     f_write.write(line)
     
     
        # another way:
        # if count==3:
        #
        #     line='hello,岳飞2
    '
        # f_write.write(line)
        # count+=1
     
     
    # #二进制模式
    # f = open('小重山2','wb') #以二进制的形式读文件
    # # f = open('小重山2','wb') #以二进制的形式写文件
    # f.write('hello alvin!'.encode())#b'hello alvin!'就是一个二进制格式的数据,只是为了观看,没有显示成010101的形式
    

    注意1: 无论是py2还是py3,在r+模式下都可以等量字节替换,但没有任何意义的! 

    注意2:有同学在这里会用readlines得到内容列表,再通过索引对相应内容进行修改,最后将列表重新写会该文件。

    ​ 这种思路有一个很大的问题,数据若很大,你的内存会受不了的,而我们的方式则可以通过迭代器来优化这个过程。 

    补充:rb模式以及seek

    fileObject.seek(offset[, whence])
    
    offset -- 开始的偏移量,也就是代表需要移动偏移的字节数
    whence:可选,默认值为 0。给offset参数一个定义,表示要从哪个位置开始偏移;0代表从文件开头开始算起,1代表从当前位置开始算起,2代表从文件末尾算起。
    

    在py2中:

    #昨夜寒蛩不住鸣.
     
    f = open('test','r',) #以写读模式打开文件
     
    f.read(3)
     
    # f.seek(3)
    # print f.read(3) # 夜
     
    # f.seek(3,1)
    # print f.read(3) # 寒
     
    # f.seek(-4,2)
    # print f.read(3) # 鸣
    

    在py3中:

    # test: 
    昨夜寒蛩不住鸣.
    
    f = open('test','rb',) #以写读模式打开文件
    
    f.read(3)
    
    # f.seek(3)
    # print(f.read(3)) # b'xe5xa4x9c'
    
    # f.seek(3,1)      #第一个数表示偏移量,第二个数表示从哪个位置开始偏移。
    # print(f.read(3)) # b'xe5xafx92'
    
    # f.seek(-4,2)
    # print(f.read(3))   # b'xe9xb8xa3'
    
    #总结: 在py3中,如果你想要字符数据,即用于观看的,则用r模式,这样我f.read到的数据是一个经过decode的
    #     unicode数据; 但是如果这个数据我并不需要看,而只是用于传输,比如文件上传,那么我并不需要decode
    #     直接传送bytes就好了,所以这个时候用rb模式.
    
    #     在py3中,有一条严格的线区分着bytes和unicode,比如seek的用法,在py2和py3里都是一个个字节的seek,
    #     但在py3里你就必须声明好了f的类型是rb,不允许再模糊.
    
    #建议: 以后再读写文件的时候直接用rb模式,需要decode的时候仔显示地去解码.
    

    1.4 with

    ​ 为了避免打开文件后忘记关闭,可以通过管理上下文,即:

    with open('log','r') as f:
            pass
    

    ​ 如此方式,当with代码块执行完毕时,内部会自动关闭并释放文件资源。

    ​ 在Python 2.7 后,with又支持同时对多个文件的上下文进行管理,即:

    with open('log1') as obj1, open('log2') as obj2:
        pass
    

    1.5 修改文件

    # 修改文件
    with open('小护士班主任',encoding='utf-8') as f,open('小护士班主任.bak','w',encoding='utf-8') as f2:
        for line in f:
            if '星儿' in line:  #班主任:星儿
                line = line.replace('星儿','啊娇')
            #写文件
            f2.write(line) #小护士:金老板
    
    import os
    os.remove('小护士班主任') #删除文件
    os.rename('小护士班主任.bak','小护士班主任')  #重命名文件
    

    二、csv

    2.1 csv简介

    ​ CSV (Comma Separated Values),即逗号分隔值(也称字符分隔值,因为分隔符可以不是逗号),是一种常用的文本格式,用以存储表格数据,包括数字或者字符。很多程序在处理数据时都会碰到csv这种格式的文件,它的使用是比较广泛的(Kaggle上一些题目提供的数据就是csv格式),csv虽然使用广泛,但却没有通用的标准,所以在处理csv格式时常常会碰到麻烦,幸好python内置了csv模块。下面简单介绍csv模块中最常用的一些函数。

      一般我们用的execl生成的格式是xls和xlsx 直接重命名为csv的话会报错。

    2.2 csv模块中的函数

    2.2.1 reader

    reader(csvfile, dialect='excel', **fmtparams)
    
    csvfile,必须是支持迭代(Iterator)的对象,可以是文件(file)对象或者列表(list)对象,如果是文件对象,打开时需要加"b"标志参数。
    
    dialect,编码风格,默认为excel的风格,也就是用逗号(,)分隔,dialect方式也支持自定义,通过调用register_dialect方法来注册,下文会提到。
    
    fmtparam,格式化参数,用来覆盖之前dialect对象指定的编码风格。
    

    img

    import csv  
    with open('test.csv','r') as myFile:  
        lines=csv.reader(myFile)  
        for line in lines:  
            print(line)  
    
    >>>
    ['testing', '12345@qq.com', '23', 'man']
    ['testing2', '12346@qq.com', '34', 'woman']
    ['testing3', '12347@qq.com', '22', 'man']
    
    ***Repl Closed***
    
    'test.csv'是文件名,‘rb’中的r表示“读”模式,因为是文件对象,所以加‘b’。
    open()返回了一个文件对象myFile,reader(myFile)只传入了第一个参数,另外两个参数采用缺省值,即以excel风格读入。
    reader()返回一个reader对象lines,lines是一个list,当调用它的方法lines.next()时,会返回一个string。
    上面程序的效果是将csv文件中的文本按行打印,每一行的元素都是以逗号分隔符','分隔得来。
    

    补充:reader对象还提供一些方法:line_num、dialect、next()

    2.2.2 writer

    writer(csvfile, dialect='excel', **fmtparams)
    
    参数的意义同 reader,这里不赘述。
    
    import csv
    
    with open('test.csv','w') as myFile:      
        myWriter=csv.writer(myFile)  
        myWriter.writerow([7,'g'])  
        myWriter.writerow([8,'h'])  
        myList=[[1,2,3],[4,5,6]]  
        myWriter.writerows(myList)
    

    imgimg

     

     有空行,看着非常难受,以下方式解决。

    import csv
    
    with open('test.csv','w',newline="") as myFile:      
        myWriter=csv.writer(myFile)  
        myWriter.writerow([7,'g'])  
        myWriter.writerow([8,'h'])  
        myList=[[1,2,3],[4,5,6]]  
        myWriter.writerows(myList)
    

    img

    'w'表示写模式。
    首先open()函数打开当前路径下的名字为't.csv'的文件,如果不存在这个文件,则创建它,返回myFile文件对象。
    csv.writer(myFile)返回writer对象myWriter。
    writerow()方法是一行一行写入,writerows方法是一次写入多行。
    注意:如果文件't.csv'事先存在,调用writer函数会先清空原文件中的文本,再执行writerow/writerows方法。
    

    补充:除了writerow、writerows,writer对象还提供了其他一些方法:writeheader、dialect

    csv 暂时就先写这些了。其他的需要用的时候继续补充。

    三、excel

    python中与excel操作相关的模块:

    • xlrd库:从excel中读取数据,支持xls、xlsx
    • xlwt库:对excel进行修改操作,不支持对xlsx格式的修改
    • xlutils库:在xlw和xlrd中,对一个已存在的文件进行修改。
    • openpyxl:主要针对xlsx格式的excel进行读取和编辑。

    3.1 Excel 中的三大对象

    • WorkBook:工作簿对象
    • Sheet:表单对象
    • Cell:表格对象

    3.2 安装

    pip install openpyxl
    

    3.3 打开文件

    1、创建

    from  openpyxl import  Workbook 
    # 实例化
    wb = Workbook()
    # 激活 worksheet
    ws = wb.active
    

    2、打开已有

    >>> from openpyxl  import load_workbook
    >>> wb2 = load_workbook('文件名称.xlsx')
    

    3.4 储存数据

    # 方式一:数据可以直接分配到单元格中(可以输入公式)
    ws['A1'] = 42
    # 方式二:可以附加行,从第一列开始附加(从最下方空白处,最左开始)(可以输入多行)
    ws.append([1, 2, 3])
    # 方式三:Python 类型会被自动转换
    ws['A3'] = datetime.datetime.now().strftime("%Y-%m-%d")
    

    3.5 创建表(sheet)

    # 方式一:插入到最后(default)
    ws1 = wb.create_sheet("Mysheet") 
    # 方式二:插入到最开始的位置
    ws2 = wb.create_sheet("Mysheet", 0)
    

    3.6 选择表(sheet)

    # sheet 名称可以作为 key 进行索引
    >>> ws3 = wb["New Title"]
    >>> ws4 = wb.get_sheet_by_name("New Title")
    >>> ws is ws3 is ws4
    True
    

    3.7 查看表名(sheet)

    # 显示所有表名
    print(wb.sheetnames)
    ['Sheet2', 'New Title', 'Sheet1']
    # 遍历所有表
    for sheet in wb:
    	print(sheet.title)
    

    3.8 访问单元格(call)

    1、单一单元格访问

    # 方法一
    c = ws['A4']
    # 方法二:row 行;column 列
    d = ws.cell(row=4, column=2, value=10)
    # 方法三:只要访问就创建
    for i in range(1,101):
    	for j in range(1,101):
    		ws.cell(row=i, column=j)
    

    2、多单元格访问

    # 通过切片
    >>> cell_range = ws['A1':'C2']
    # 通过行(列)
    >>> colC = ws['C']
    >>> col_range = ws['C:D']
    >>> row10 = ws[10]
    >>> row_range = ws[5:10]
    # 通过指定范围(行 → 行)
    >>> for row in ws.iter_rows(min_row=1, max_col=3, max_row=2):
    ...  for cell in row:
    ...    print(cell)
    <Cell Sheet1.A1>
    <Cell Sheet1.B1>
    <Cell Sheet1.C1>
    <Cell Sheet1.A2>
    <Cell Sheet1.B2>
    <Cell Sheet1.C2> 
    # 通过指定范围(列 → 列)
    for row in ws.iter_cols(min_col=1, max_row=3, max_col=2):
        for cell in row:
            print(cell)
    <Cell 'Sheet'.A1>
    <Cell 'Sheet'.A2>
    <Cell 'Sheet'.A3>
    <Cell 'Sheet'.B1>
    <Cell 'Sheet'.B2>
    <Cell 'Sheet'.B3>
    # 遍历所有 方法一
    >>> ws = wb.active
    >>> ws['C9'] = 'hello world'
    >>> tuple(ws.rows)
    ((<Cell Sheet.A1>, <Cell Sheet.B1>, <Cell Sheet.C1>),
    (<Cell Sheet.A2>, <Cell Sheet.B2>, <Cell Sheet.C2>),
    ...
    (<Cell Sheet.A8>, <Cell Sheet.B8>, <Cell Sheet.C8>),
    (<Cell Sheet.A9>, <Cell Sheet.B9>, <Cell Sheet.C9>))
    # 遍历所有 方法二
    >>> tuple(ws.columns)
    ((<Cell Sheet.A1>,
    <Cell Sheet.A2>,
    <Cell Sheet.A3>,
    ...
    <Cell Sheet.B7>,
    <Cell Sheet.B8>,
    <Cell Sheet.B9>),
    (<Cell Sheet.C1>,
    ...
    <Cell Sheet.C8>,
    <Cell Sheet.C9>))
    

    3.9 保存数据

    wb.save('文件名称.xlsx')
    

    3.10 其他

    1、改变 sheet 标签按钮颜色

    ws.sheet_properties.tabColor = "1072BA"
    

    2、获取最大行,最大列

    # 获得最大列和最大行
    print(sheet.max_row)
    print(sheet.max_column)
    

    3、获取每一行,每一列

    • sheet.rows为生成器, 里面是每一行的数据,每一行又由一个tuple包裹。
    • sheet.columns类似,不过里面是每个tuple是每一列的单元格。
    
    # 因为按行,所以返回A1, B1, C1这样的顺序
    for row in sheet.rows:
      for cell in row:
        print(cell.value)
     
    # A1, A2, A3这样的顺序
    for column in sheet.columns:
      for cell in column:
        print(cell.value)
    

    4、根据数字得到字母,根据字母得到数字

    from openpyxl.utils import get_column_letter, column_index_from_string
    # 根据列的数字返回字母
    print(get_column_letter(2))  # B
    # 根据字母返回列的数字
    print(column_index_from_string('D'))
    

    5、删除工作表

    # 方式一
    wb.remove(sheet)
    # 方式二
    del wb[sheet]
    

    6、矩阵置换(行 → 列)

    rows = [
        ['Number', 'data1', 'data2'],
        [2, 40, 30],
        [3, 40, 25],
        [4, 50, 30],
        [5, 30, 10],
        [6, 25, 5],
        [7, 50, 10]]
     
    list(zip(*rows))
     
    # out
    [('Number', 2, 3, 4, 5, 6, 7),
     ('data1', 40, 40, 50, 30, 25, 50),
     ('data2', 30, 25, 30, 10, 5, 10)]
     
    # 注意 方法会舍弃缺少数据的列(行)
    rows = [
        ['Number', 'data1', 'data2'],
        [2, 40	  ],	# 这里少一个数据
        [3, 40, 25],
        [4, 50, 30],
        [5, 30, 10],
        [6, 25, 5],
        [7, 50, 10],
    ]
    # out
    [('Number', 2, 3, 4, 5, 6, 7), ('data1', 40, 40, 50, 30, 25, 50)]
    

    3.11 设置单元格风格

    1、需要导入的类

    from openpyxl.styles import Font, colors, Alignment
    

    2、字体

    ​ 下面的代码指定了等线24号加粗斜体,字体颜色红色。直接使用cell的font属性,将Font对象赋值给它。

    bold_itatic_24_font = Font(name='等线', size=24, italic=True, color=colors.RED, bold=True)
    sheet['A1'].font = bold_itatic_24_font
    

    3、对齐方式

    ​ 也是直接使用cell的属性aligment,这里指定垂直居中和水平居中。除了center,还可以使用right、left等等参数。

    # 设置B1中的数据垂直居中和水平居中
    sheet['B1'].alignment = Alignment(horizontal='center', vertical='center')
    

    4、设置行高和列宽

    # 第2行行高
    sheet.row_dimensions[2].height = 40
    # C列列宽
    sheet.column_dimensions['C'].width = 30
    

    5、合并和拆分单元格

    # 合并单元格, 往左上角写入数据即可
    sheet.merge_cells('B1:G1') # 合并一行中的几个单元格
    sheet.merge_cells('A1:C3') # 合并一个矩形区域中的单元格
    
  • 相关阅读:
    关于回溯与招聘市场
    关于回溯与马
    关于回溯和后宫
    关于兔子
    关于递归和斐波那契数列
    关于递归和汉诺塔
    关于简单汉诺塔
    nodejs报错roll back,because of a error.node.js setup wizard ended prematurel
    fatal error C1859 意外的预编译头错误,只需重新运行编译器
    sqlserver2008 无法设置主体sa的凭据
  • 原文地址:https://www.cnblogs.com/dongye95/p/13981185.html
Copyright © 2011-2022 走看看