在实际工作中,使用爬虫获取数据后,要想办法把数据存储起来,以便日后对数据进行各种操作,这也是网络爬虫的最后一步。这一篇,将介绍Text文件促成你。
Text文本文件存储是最常见的存储方式,在计算机中新建文件大多是Text文件,其示例如下:
1 file = open("filename",'a',encoding='utf-8') 2 file.write("需要写入的字符串") 3 file.close();
以上示例为标准的文件存储方式,即打开文件、写入数据、关闭文件。open()方法用于打开一个文件,并返回文件对象,在文件进行处理的过程中都需要使用这个函数,若该文件无法打开,则会爆出OSError。使用open()方法一定要保证关闭文件对象,及调用close()函数。open()函数常用的形式是接收两个参数:文件名(file)和模式(mode)。write()方法用于向文件中写入指定字符串,以下代码中的写法,会随着with语句的结束而自动关闭,不需要调用close()函数:
1 with open("filename",'a' , encoding='utf-8') as file: 2 file.write('...')
文件操作常见模式如下表:
模式 | 描述 |
r | 以只读方式打开,文件的指针将放在文件的开头。这是默认形式。 |
rb | 以二进制格式打开一个文件用于只读,文件指针放在文件开头,这是默认模式,一般用于非文本文件,如图片等。 |
r+ | 打开一个文件用于读写,文件指针将放在文件开头。 |
rb+ | 以二进制格式打开一个文件用于读写,文件指针将放在文件开头。一般用于非文本文件,如图片等。 |
w | 打开一个文件用于写入。若该文件已存在则打开文件,并从文件开头开始编辑,即原有内容会被删除;若该未经不存在,则创建新文件。 |
wb | 以二进制格式打开一个文件用于写入。若该文件已存在则打开文件,并从文件开头开始编辑,即原有内容会被删除;若该文件不存在,则创建新文件。一般用于非文本文件,如图片等。 |
W+ | 打开一个文件用于读写。若该文件已存在则打开文件,并从头开始编辑,即原有内容会被删除;若该文件不存在,则创建新文件。 |
Wb+ | 以二进制格式打开一个文件用于读写。若该文件已存在则打开该文件,并从文件开头开始编辑,即原有文件会被删除;若该文件不存在,则创建新文件。一般用于非文本文件,如图片等。 |
a | 打开一个文件用于追加。若该文件已存在,则文件指针将会放到文件的结尾,即行的内容会被写入已有内容之后;若该文件不存在,则创建新文件进行写入。 |
ab | 以二进制格式打开一个文件用于追加。若该文件已存在,则指针将放在该文件结尾,文件打开时会是追加模式;若该文件不存在,则创建文件用于读写。 |
ab+ | 以二进制格式打开一个文件用于追加。若该文件已存在,则文件指针将放在文件的结尾;若该文件不存在,则创建新文件用于读写。 |