zoukankan      html  css  js  c++  java
  • 爬虫实战_爬取豆瓣图书利用csv库存储

    读取csv文件

    通过csv.reader()和DictReader()两个函数
    reader()函数返回一个迭代器 会包含表头 通过next函数可以跳过,但是它只能通过下标访问数据;
    DictReader()函数返回一个字典,不包含表头,可以通过键名访问!!

    
    import csv
    # with open('1 (2).csv','r') as fp:
    #     reader=csv.reader(fp)
    #     # next(reader)
    #     for x in reader:
    #         print(x)
    with open('1 (2).csv','r') as fp:
        reader=csv.DictReader(fp)
        for i in reader:
            print(i['学生姓名'])
    
    
    

    写入csv文件

    两个方法:一个通过writer()函数 一个通过Dictwriter()函数。
    writerow() writerows()
    都是先将文件通过上面两个函数封装成对象,然后在对csv对象进行操作。
    注意Dictwriter()有两个参数一个是文件,另一个是表头(列表),先调用writeheader()函数将表头写进去。
    这两个函数都可以写入,看给的数据:如果是元组用第一个函数;给的是字典用第二个函数。


    项目

    项目说明:爬取豆瓣图片前十页,并用csv库存储下来。
    代码如下:

    import requests
    import csv
    from bs4 import BeautifulSoup
    header={
        "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36"
    }
    headers=['书名','相关信息','评分']
    def spdier(url):
        resp=requests.get(url,headers=header)
        text=resp.text
        html=BeautifulSoup(text,"lxml")
        # print(html.prettify())
        alist=html.find_all('a',class_='title')
        titles=[]
        for a in alist:
            title=list(a.stripped_strings)[0]
            titles.append(title)
        infolist=html.find_all('div',class_='desc')
        infos=[]
        for info in infolist:
            info1=list(info.stripped_strings)[0]
            infos.append(info1)
        ratelist=html.find_all('span',class_='rating_nums')
        rates=[]
        for i in ratelist:
            rate=list(i.stripped_strings)[0]
            rates.append(rate)
        books=[]
        for i in range(len(rates)):
            book={
                '书名':titles[i],
                '相关信息':infos[i],
                '评分':rates[i]
            }
            books.append(book)
        return books
    def csv_storage(list_books,filename):
        with open(filename,'w',encoding='utf-8',newline='') as fp:
            writer=csv.DictWriter(fp,headers)
            writer.writeheader()
            writer.writerows(list_books)
    def main():
        base_url="https://www.douban.com/tag/%E5%B0%8F%E8%AF%B4/book?start={}"
        books=[]
        for i in range(0,136,15):
            url=base_url.format(i)
            book=spdier(url)
            books +=book
        csv_storage(books,'豆瓣图片.csv')
    if __name__ == '__main__':
        main()
    

    总结

    今天学习了csv库存储爬取下来的数据,通过这个项目巩固了学习的内容。

  • 相关阅读:
    Android实战——第三方服务之Bmob后端云的集成、用户登陆、用户注册、获取用户、用户注销(一)
    Android实战——第三方服务之Bmob后端云的答题系统小项目(四)
    10.Python运行Scrapy时出现错误: ModuleNotFoundError: No module named 'win32api'
    基础小知识(1)
    9.Python安装scrapy教程
    1.使用Fiddler进行接口测试
    8.Python编写登录接口
    18.Selenium+Python案例 -- 豆瓣
    17.Selenium+Python日期控件小案例
    16.Selenium+Python关于句柄的小Demo
  • 原文地址:https://www.cnblogs.com/Da4er/p/12318129.html
Copyright © 2011-2022 走看看