zoukankan      html  css  js  c++  java
  • Python爬取糗事百科

    import urllib
    import urllib.request
    from bs4 import BeautifulSoup
    """
        1.抓取糗事百科所有纯文本段子
        2.保存的本地文件
    """
    class QiuShi():
        def __init__(self):
            user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
            self.headers = {'User-Agent':user_agent}
    
        def query(self,page=1):
            self.url = 'http://www.qiushibaike.com/text/page/' + str(page)
            print(self.url)
            res = urllib.request.Request(self.url,headers=self.headers)
            html = urllib.request.urlopen(res)
            bsoup = BeautifulSoup(html,'html.parser')
            for content in bsoup.find_all('div',{'class':'content'}):
                print(content.get_text())
    
    if __name__ =='__main__':
        qiushi = QiuShi()
        for i in range(35):
            qiushi.query(i)


  • 相关阅读:
    beta冲刺1
    凡事预则立-于Beta冲刺前
    SDN第二次作业
    事后诸葛亮(团队)
    SDN第一次上机作业
    冲刺总结随笔
    Alpha第三天
    Alpha第二天
    Alpha冲刺博客集
    项目需求分析(团队)
  • 原文地址:https://www.cnblogs.com/lkpp/p/7400043.html
Copyright © 2011-2022 走看看