zoukankan      html  css  js  c++  java
  • 爬虫与Python:(四)爬虫进阶二之数据存储(文件存储)——1.Text存储

    在实际工作中,使用爬虫获取数据后,要想办法把数据存储起来,以便日后对数据进行各种操作,这也是网络爬虫的最后一步。这一篇,将介绍Text文件促成你。

    Text文本文件存储是最常见的存储方式,在计算机中新建文件大多是Text文件,其示例如下:

    1 file = open("filename",'a',encoding='utf-8')
    2 file.write("需要写入的字符串")
    3 file.close();

    以上示例为标准的文件存储方式,即打开文件、写入数据、关闭文件。open()方法用于打开一个文件,并返回文件对象,在文件进行处理的过程中都需要使用这个函数,若该文件无法打开,则会爆出OSError。使用open()方法一定要保证关闭文件对象,及调用close()函数。open()函数常用的形式是接收两个参数:文件名(file)和模式(mode)。write()方法用于向文件中写入指定字符串,以下代码中的写法,会随着with语句的结束而自动关闭,不需要调用close()函数:

    1 with open("filename",'a' , encoding='utf-8') as file:
    2     file.write('...')

    文件操作常见模式如下表:

    文件操作常见模式
    模式 描述
    r 以只读方式打开,文件的指针将放在文件的开头。这是默认形式。
    rb 以二进制格式打开一个文件用于只读,文件指针放在文件开头,这是默认模式,一般用于非文本文件,如图片等。
    r+ 打开一个文件用于读写,文件指针将放在文件开头。
    rb+  以二进制格式打开一个文件用于读写,文件指针将放在文件开头。一般用于非文本文件,如图片等。
    w  打开一个文件用于写入。若该文件已存在则打开文件,并从文件开头开始编辑,即原有内容会被删除;若该未经不存在,则创建新文件。
     wb  以二进制格式打开一个文件用于写入。若该文件已存在则打开文件,并从文件开头开始编辑,即原有内容会被删除;若该文件不存在,则创建新文件。一般用于非文本文件,如图片等。
     W+ 打开一个文件用于读写。若该文件已存在则打开文件,并从头开始编辑,即原有内容会被删除;若该文件不存在,则创建新文件。
     Wb+ 以二进制格式打开一个文件用于读写。若该文件已存在则打开该文件,并从文件开头开始编辑,即原有文件会被删除;若该文件不存在,则创建新文件。一般用于非文本文件,如图片等。
     a  打开一个文件用于追加。若该文件已存在,则文件指针将会放到文件的结尾,即行的内容会被写入已有内容之后;若该文件不存在,则创建新文件进行写入。
    ab 以二进制格式打开一个文件用于追加。若该文件已存在,则指针将放在该文件结尾,文件打开时会是追加模式;若该文件不存在,则创建文件用于读写。
    ab+ 以二进制格式打开一个文件用于追加。若该文件已存在,则文件指针将放在文件的结尾;若该文件不存在,则创建新文件用于读写。
  • 相关阅读:
    批量替换文本的工具
    wcf异常显示错误到客户端
    文件以二进制存入数据库和从数据库读取二进制文件
    关于关系数据库的范式
    对于挑战书上的很久之前都看不懂的DP看懂的突破
    操作系统概念
    关于P,V操作理解的突破,关于并发设计与并行
    关于快速沃尔什变换
    我觉得我应该养成经常翻收藏夹的习惯
    目前我的思考模式
  • 原文地址:https://www.cnblogs.com/luyj00436/p/15434304.html
Copyright © 2011-2022 走看看