zoukankan      html  css  js  c++  java
  • 爬虫实战_爬取豆瓣图书利用csv库存储

    读取csv文件

    通过csv.reader()和DictReader()两个函数
    reader()函数返回一个迭代器 会包含表头 通过next函数可以跳过,但是它只能通过下标访问数据;
    DictReader()函数返回一个字典,不包含表头,可以通过键名访问!!

    
    import csv
    # with open('1 (2).csv','r') as fp:
    #     reader=csv.reader(fp)
    #     # next(reader)
    #     for x in reader:
    #         print(x)
    with open('1 (2).csv','r') as fp:
        reader=csv.DictReader(fp)
        for i in reader:
            print(i['学生姓名'])
    
    
    

    写入csv文件

    两个方法:一个通过writer()函数 一个通过Dictwriter()函数。
    writerow() writerows()
    都是先将文件通过上面两个函数封装成对象,然后在对csv对象进行操作。
    注意Dictwriter()有两个参数一个是文件,另一个是表头(列表),先调用writeheader()函数将表头写进去。
    这两个函数都可以写入,看给的数据:如果是元组用第一个函数;给的是字典用第二个函数。


    项目

    项目说明:爬取豆瓣图片前十页,并用csv库存储下来。
    代码如下:

    import requests
    import csv
    from bs4 import BeautifulSoup
    header={
        "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36"
    }
    headers=['书名','相关信息','评分']
    def spdier(url):
        resp=requests.get(url,headers=header)
        text=resp.text
        html=BeautifulSoup(text,"lxml")
        # print(html.prettify())
        alist=html.find_all('a',class_='title')
        titles=[]
        for a in alist:
            title=list(a.stripped_strings)[0]
            titles.append(title)
        infolist=html.find_all('div',class_='desc')
        infos=[]
        for info in infolist:
            info1=list(info.stripped_strings)[0]
            infos.append(info1)
        ratelist=html.find_all('span',class_='rating_nums')
        rates=[]
        for i in ratelist:
            rate=list(i.stripped_strings)[0]
            rates.append(rate)
        books=[]
        for i in range(len(rates)):
            book={
                '书名':titles[i],
                '相关信息':infos[i],
                '评分':rates[i]
            }
            books.append(book)
        return books
    def csv_storage(list_books,filename):
        with open(filename,'w',encoding='utf-8',newline='') as fp:
            writer=csv.DictWriter(fp,headers)
            writer.writeheader()
            writer.writerows(list_books)
    def main():
        base_url="https://www.douban.com/tag/%E5%B0%8F%E8%AF%B4/book?start={}"
        books=[]
        for i in range(0,136,15):
            url=base_url.format(i)
            book=spdier(url)
            books +=book
        csv_storage(books,'豆瓣图片.csv')
    if __name__ == '__main__':
        main()
    

    总结

    今天学习了csv库存储爬取下来的数据,通过这个项目巩固了学习的内容。

  • 相关阅读:
    [学习记录]Prometheus简单上手
    [学习记录]从triggerflow源码中学到的简单思想
    42 | 实战:大型全球化电商的测试基础架构设计
    41 | 从小工到专家:聊聊测试执行环境的架构设计(下)
    40 | 从小工到专家:聊聊测试执行环境的架构设计(上)
    39 | 从小作坊到工厂:什么是Selenium Grid?如何搭建Selenium Grid?
    python之jsonpath
    38 | 测试数据的“银弹”- 统一测试数据平台(下)
    Python replace()方法
    37 | 测试数据的“银弹”- 统一测试数据平台(上)
  • 原文地址:https://www.cnblogs.com/Da4er/p/12318129.html
Copyright © 2011-2022 走看看