zoukankan      html  css  js  c++  java
  • [Python3网络爬虫开发实战] 5.3-非关系型数据库存储

    NoSQL,全称Not Only SQL,意为不仅仅是SQL,泛指非关系型数据库。NoSQL是基于键值对的,而且不需要经过SQL层的解析,数据之间没有耦合性,性能非常高。

    非关系型数据库又可细分如下。

    • 键值存储数据库:代表有Redis、Voldemort和Oracle BDB等。
    • 列存储数据库:代表有Cassandra、HBase和Riak等。
    • 文档型数据库:代表有CouchDB和MongoDB等。
    • 图形数据库:代表有Neo4J、InfoGrid和Infinite Graph等。

    对于爬虫的数据存储来说,一条数据可能存在某些字段提取失败而缺失的情况,而且数据可能随时调整。另外,数据之间还存在嵌套关系。如果使用关系型数据库存储,一是需要提前建表,二是如果存在数据嵌套关系的话,需要进行序列化操作才可以存储,这非常不方便。如果用了非关系型数据库,就可以避免一些麻烦,更简单高效。

    本节中,我们主要介绍MongoDB和Redis的数据存储操作。

  • 相关阅读:
    Wordpress安装及4.6漏洞问题
    天朝挖煤的题已经不会做了。。
    Python str decode---error
    requests库的初级学习
    Python虚拟环境的搭建
    天朝挖煤CTF
    七、TCP粘包和拆包
    六、Netty的Handler
    五、GoogleProtobuf
    三、Netty高性能架构设计
  • 原文地址:https://www.cnblogs.com/palace/p/9628297.html
Copyright © 2011-2022 走看看