zoukankan      html  css  js  c++  java
  • 网络爬虫之第三章数据存储

    第三章 数据存储

    第一节 json文件处理:

    什么是json:

    JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。它基于 ECMAScript (w3c制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。 易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。更多解释请见:https://baike.baidu.com/item/JSON/2462549?fr=aladdin

    JSON支持数据格式:

    1. 对象(字典)。使用花括号。
    2. 数组(列表)。使用方括号。
    3. 整形、浮点型、布尔类型还有null类型。
    4. 字符串类型(字符串必须要用双引号,不能用单引号)。

    多个数据之间使用逗号分开。
    注意:json本质上就是一个字符串。

    字典和列表转JSON:

    import json
    
    books = [
        {
            'title': '钢铁是怎样练成的',
            'price': 9.8
        },
        {
            'title': '红楼梦',
            'price': 9.9
        }
    ]
    
    json_str = json.dumps(books,ensure_ascii=False)
    print(json_str)

    因为jsondump的时候,只能存放ascii的字符,因此会将中文进行转义,这时候我们可以使用ensure_ascii=False关闭这个特性。
    Python中。只有基本数据类型才能转换成JSON格式的字符串。也即:intfloatstrlistdicttuple

    将json数据直接dump到文件中:

    json模块中除了dumps函数,还有一个dump函数,这个函数可以传入一个文件指针,直接将字符串dump到文件中。示例代码如下:

    books = [
        {
            'title': '钢铁是怎样练成的',
            'price': 9.8
        },
        {
            'title': '红楼梦',
            'price': 9.9
        }
    ]
    with open('a.json','w') as fp:
        json.dump(books,fp)

    将一个json字符串load成Python对象:

    json_str = '[{"title": "钢铁是怎样练成的", "price": 9.8}, {"title": "红楼梦", "price": 9.9}]'
    books = json.loads(json_str,encoding='utf-8')
    print(type(books))
    print(books)

    直接从文件中读取json:

    import json
    with open('a.json','r',encoding='utf-8') as fp:
        json_str = json.load(fp)
        print(json_str)


    第二节 csv文件处理

    读取csv文件:

    import csv
    
    with open('stock.csv','r') as fp:
        reader = csv.reader(fp)
        titles = next(reader)
        for x in reader:
            print(x)

    这样操作,以后获取数据的时候,就要通过下表来获取数据。如果想要在获取数据的时候通过标题来获取。那么可以使用DictReader。示例代码如下:

    import csv
    
    with open('stock.csv','r') as fp:
        reader = csv.DictReader(fp)
        for x in reader:
            print(x['turnoverVol'])

    写入数据到csv文件:

    写入数据到csv文件,需要创建一个writer对象,主要用到两个方法。一个是writerow,这个是写入一行。一个是writerows,这个是写入多行。示例代码如下:

    import csv
    
    headers = ['name','age','classroom']
    values = [
        ('zhiliao',18,'111'),
        ('wena',20,'222'),
        ('bbc',21,'111')
    ]
    with open('test.csv','w',newline='') as fp:
        writer = csv.writer(fp)
        writer.writerow(headers)
        writer.writerows(values)

    也可以使用字典的方式把数据写入进去。这时候就需要使用DictWriter了。示例代码如下:

    import csv
    
    headers = ['name','age','classroom']
    values = [
        {"name":'wenn',"age":20,"classroom":'222'},
        {"name":'abc',"age":30,"classroom":'333'}
    ]
    with open('test.csv','w',newline='') as fp:
        writer = csv.DictWriter(fp,headers)
        writer = csv.writeheader()
        writer.writerow({'name':'zhiliao',"age":18,"classroom":'111'})
        writer.writerows(values)
    
    

     

    第三节 MySQL数据库操作

    安装mysql:

    1. 在官网:https://dev.mysql.com/downloads/windows/installer/5.7.html
    2. 如果提示没有.NET Framework框架。那么就在提示框中找到下载链接,下载一个就可以了。
    3. 如果提示没有Microsoft Virtual C++ x64(x86),那么百度或者谷歌这个软件安装即可。
    4. 如果没有找到。那么私聊我。

    navicat是一个操作mysql数据库非常方便的软件。使用他操作数据库,就跟使用excel操作数据是一样的。

    安装驱动程序:

    Python要想操作MySQL。必须要有一个中间件,或者叫做驱动程序。驱动程序有很多。比如有mysqldbmysqlclientpymysql等。在这里,我们选择用pymysql。安装方式也是非常简单,通过命令pip install pymysql即可安装。

    数据库连接:

    数据库连接之前。首先先确认以下工作完成,这里我们以一个pymysql_test数据库.以下将介绍连接mysql的示例代码:

     import pymysql
    
        db = pymysql.connect(
            host="127.0.0.1",
            user='root',
            password='root',
            database='pymysql_test',
            port=3306
        )
        cursor = db.cursor()
        cursor.execute("select 1")
        data = cursor.fetchone()
        print(data)
        db.close()

    插入数据:

    import pymysql
    
    db = pymysql.connect(
        host="127.0.0.1",
        user='root',
        password='root',
        database='pymysql_test',
        port=3306
    )
    cursor = db.cursor()
    sql = """
    insert into user(
        id,username,gender,age,password
      ) 
      values(null,'abc',1,18,'111111');
    """
    cursor.execute(sql)
    db.commit()
    db.close()

    如果在数据还不能保证的情况下,可以使用以下方式来插入数据:

    
    
    import pymysql
    
    db = pymysql.connect(
        host="127.0.0.1",
        user='root',
        password='root',
        database='pymysql_test',
        port=3306
    )
    cursor = db.cursor()
    
    sql = """
    insert into user(
        id,username,gender,age,password
      ) 
      values(null,%s,%s,%s,%s);
    """
    
    cursor.execute(sql,('spider',1,20,'222222'))
    db.commit()
    db.close()

    查找数据:

    使用pymysql查询数据。可以使用fetch*方法

    1. fetchone():这个方法每次之获取一条数据。
    2. fetchall():这个方法接收全部的返回结果。
    3. fetchmany(size):可以获取指定条数的数据。
      示例代码如下:
    cursor = db.cursor()
    
    sql = """
    select * from user
    """
    
    cursor.execute(sql)
    while True:
        result = cursor.fetchone()
        if not result:
            break
        print(result)
    db.close()

    或者是直接使用fetchall,一次性可以把所有满足条件的数据都取出来:

    cursor = db.cursor()
    
    sql = """
    select * from user
    """
    
    cursor.execute(sql)
    results = cursor.fetchall()
    for result in results:
        print(result)
    db.close()

    或者是使用fetchmany,指定获取多少条数据:

    cursor = db.cursor()
    
    sql = """
    select * from user
    """
    
    cursor.execute(sql)
    results = cursor.fetchmany(1)
    for result in results:
        print(result)
    db.close()

    删除数据:

    cursor = db.cursor()
    
    sql = """
    delete from user where id=1
    """
    
    cursor.execute(sql)
    db.commit()
    db.close()

    更新数据:

    conn = pymysql.connect(host='localhost',user='root',password='root',database='pymysql_demo',port=3306)
    cursor = conn.cursor()
    
    sql = """
    update user set username='aaa' where id=1
    """
    cursor.execute(sql)
    conn.commit()
    
    conn.close()

     第四节 MongoDB

    安装:

    官网:https://www.mongodb.com/download-center#community

    安装驱动程序:

    Python要想操作MySQL。必须要有一个中间件,或者叫做驱动程序。比如:pymongo   安装方式也是非常简单,通过命令pip install pymongo即可安装。

    插入数据:

    from pymongo import MongoClient
    
    # Mongo配置
    conn = MongoClient('127.0.0.1', 27017)
    db = conn.xxx  #连接xxx数据库,没有则自动创建
    mongo_xxx = db.article  #使用article集合,没有则自动创建
    
    mongo_xxx.insert({
                        'title': title,
                        'title': title,
                          .        .    
                          .        .
                    })                                

    基本操作命令:

    1.ds :查看当前的数据库。

    2.show dbs :查看所有的数据库

    3.use 数据库名 : 切换数据库。如果数据库不存在,则创建一个数据库。

    4.db.dropDatabase() :删除当前指向的数据库。

    5.db.集合名.insert(value) :  添加数据到指定的集合中。

    6.db.集合名.find():从指定的集合中查找数据。

  • 相关阅读:
    分布式git
    服务器上的git
    git分支
    剑指offer(38)二叉树的深度
    剑指offer(37)数字在排序数组中出现的次数。
    JS刷题总结
    剑指offer(36)两个链表中的第一个公共节点
    剑指offer(35)数组中的逆序对
    剑指offer(34)第一个只出现一次的字符
    剑指offer(33)丑数
  • 原文地址:https://www.cnblogs.com/lcy0302/p/10981383.html
Copyright © 2011-2022 走看看