现在工作上主要用的语言是java,java在企业级的应用上能够发挥很好的用途,但有时候要做一个小功能时,比如批量更新文件,抓取网页等,这时候用java就显得太笨重了。因此就学习了python这门脚本语言。
这篇随笔主要是讲述python怎么处理文本文件,顺便巩固下python的一些基本知识。
好了,开始吧......
需求阐述
- 处理文本文件:读一个本地文件,逐行处理
说到处理文件,不得不说下python的内置函数 open
open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)
函数定义:打开一个文件,并返回相应的文件Object,如果指定的文件不能打开,那么 OSError 将会抛出
其中,file
参数表示需要打开的文件名称,
mode
是打开模式,
buffering用来控制文件的缓冲,默认值为0
,表示不缓冲,设置为1
就会有缓冲,
encoding 为文件编码,默认为系统编码,
errors 是一个可选参数,用来指定当文件在编码和解码过程中发生错误将怎么处理,注意,这个错误处理不会应用在mode为二进制的模式('b')中,
newline 用来控制通用换行符的工作模式(只工作在文本模式中)
mode
模式可以有以下几种:
字符 | 意义 |
---|---|
'r' | 以只读方式打开 (default) |
'w' | 以写方式打开,首先会删掉文件内容 |
'x' | 当文件已存在时,已独占方式打开 |
'a' | 以写方式打开,当文件存在时,会在内容末尾添加内容 |
'b' | 二进制 |
't' | 文本模式 (default) |
'+' | 更新一个磁盘文件 (reading and writing) |
'U' | universal newlines mode (已废弃) |
一般情况下,使用open()
函数时只需要调入文件名参数,而不添加其它任何参数,就可以获取文件内容。默认的模式是读模式,如果读取特殊文件(例如视频或者图片文件),那么必须使用‘b’模式。
下面是处理文本的一个例子展示:
1 # encoding=utf-8 2 file_path = "d:/test.txt" 3 file = open(file_path) 4 5 #####1. read()##### 6 7 print(file.read()) 8 9 #####2. readline()##### 10 11 line = file.readline() 12 while line: 13 print(line) 14 line = file.readline() 15 16 #####2. readlines()##### 17 18 for line in file.readlines(): 19 print(line)
20 file.close()
上面列出来3种读取file的方式: read()、 readline()、 readlines()
- readlines: 最常用的一种方式,会把文件的每行内容转换成一个list,然后就可以进行各种操作
- read: 表示一次性返回文件的全部内容
- readline:返回文件的一行内容,下次调用时会继续读下一行,直到读取完
ok,处理文件的例子就到这!