zoukankan      html  css  js  c++  java
  • 爬虫与Python:(四)爬虫进阶二之数据存储(文件存储)——1.Text存储

    在实际工作中,使用爬虫获取数据后,要想办法把数据存储起来,以便日后对数据进行各种操作,这也是网络爬虫的最后一步。这一篇,将介绍Text文件促成你。

    Text文本文件存储是最常见的存储方式,在计算机中新建文件大多是Text文件,其示例如下:

    1 file = open("filename",'a',encoding='utf-8')
    2 file.write("需要写入的字符串")
    3 file.close();

    以上示例为标准的文件存储方式,即打开文件、写入数据、关闭文件。open()方法用于打开一个文件,并返回文件对象,在文件进行处理的过程中都需要使用这个函数,若该文件无法打开,则会爆出OSError。使用open()方法一定要保证关闭文件对象,及调用close()函数。open()函数常用的形式是接收两个参数:文件名(file)和模式(mode)。write()方法用于向文件中写入指定字符串,以下代码中的写法,会随着with语句的结束而自动关闭,不需要调用close()函数:

    1 with open("filename",'a' , encoding='utf-8') as file:
    2     file.write('...')

    文件操作常见模式如下表:

    文件操作常见模式
    模式 描述
    r 以只读方式打开,文件的指针将放在文件的开头。这是默认形式。
    rb 以二进制格式打开一个文件用于只读,文件指针放在文件开头,这是默认模式,一般用于非文本文件,如图片等。
    r+ 打开一个文件用于读写,文件指针将放在文件开头。
    rb+  以二进制格式打开一个文件用于读写,文件指针将放在文件开头。一般用于非文本文件,如图片等。
    w  打开一个文件用于写入。若该文件已存在则打开文件,并从文件开头开始编辑,即原有内容会被删除;若该未经不存在,则创建新文件。
     wb  以二进制格式打开一个文件用于写入。若该文件已存在则打开文件,并从文件开头开始编辑,即原有内容会被删除;若该文件不存在,则创建新文件。一般用于非文本文件,如图片等。
     W+ 打开一个文件用于读写。若该文件已存在则打开文件,并从头开始编辑,即原有内容会被删除;若该文件不存在,则创建新文件。
     Wb+ 以二进制格式打开一个文件用于读写。若该文件已存在则打开该文件,并从文件开头开始编辑,即原有文件会被删除;若该文件不存在,则创建新文件。一般用于非文本文件,如图片等。
     a  打开一个文件用于追加。若该文件已存在,则文件指针将会放到文件的结尾,即行的内容会被写入已有内容之后;若该文件不存在,则创建新文件进行写入。
    ab 以二进制格式打开一个文件用于追加。若该文件已存在,则指针将放在该文件结尾,文件打开时会是追加模式;若该文件不存在,则创建文件用于读写。
    ab+ 以二进制格式打开一个文件用于追加。若该文件已存在,则文件指针将放在文件的结尾;若该文件不存在,则创建新文件用于读写。
  • 相关阅读:
    多线程协作wait、notify、notifyAll方法简介理解使用 多线程中篇(十四)
    深入解析ThreadLocal 详解、实现原理、使用场景方法以及内存泄漏防范 多线程中篇(十七)
    java线程通信与协作小结 多线程中篇(十六)
    sleep、yield、join方法简介与用法 sleep与wait区别 多线程中篇(十五)
    final 关键字与安全发布 多线程中篇(十三)
    java 轻量级同步volatile关键字简介与可见性有序性与synchronized区别 多线程中篇(十二)
    windows系统dokuwiki安装部署设置 xampp环境配置
    synchronized关键字简介 多线程中篇(十一)
    Java内存模型JMM 高并发原子性可见性有序性简介 多线程中篇(十)
    java锁与监视器概念 为什么wait、notify、notifyAll定义在Object中 多线程中篇(九)
  • 原文地址:https://www.cnblogs.com/luyj00436/p/15434304.html
Copyright © 2011-2022 走看看