zoukankan      html  css  js  c++  java
  • Python爬虫基础(三)--将爬虫获取到的数据写入到csv

    爬虫需要将网页获取的结果保存下来,现在先学习csv保存数据;

    最终实现代码:

    import requests
    from bs4 import BeautifulSoup
    import csv
    
    def db():
        url = "https://www.douban.com/group/"
        headers = {
            "User-Agent":"Mozilla/5.0",
            "Cookie":''
        }
        ret = requests.get(url,headers = headers)
        return ret.content
    
    #解析网页,并获取帖子的url、标题
    def get_data(lst,html_data):
        soup = BeautifulSoup(html_data,"html.parser")
        for i in soup.find_all("a",attrs="title"):
            lst.append([i.attrs["href"],i.attrs["title"]])
    
    #保存url、标题到csv文件中
    def save_to_csv(lst):
        with open('test.csv','w',newline='',encoding='utf-8')as f:
            f_csv = csv.writer(f)
            for data in lst:
                f_csv.writerow(data)
    
    def main():
        Html = db()
        lst = []
        get_data(lst,Html)
        save_to_csv(lst)
    
    main()
  • 相关阅读:
    lua 与 c 的相互调用
    平台认证 & HTTP 302 重定向
    1. 个人经验总结
    Java反编译
    1. 个人经验总结
    3. 技术专题
    Office
    工作机的目录组织
    Eclipse
    Eclipse中的Gradle集成
  • 原文地址:https://www.cnblogs.com/james-danni/p/11848494.html
Copyright © 2011-2022 走看看