zoukankan      html  css  js  c++  java
  • 爬取百度热议榜单

    代码:

    import pandas as pd
    import requests as rq
    from bs4 import BeautifulSoup
    url="http://tieba.baidu.com/hottopic/browse/topicList?res_type=1"

    def res_caputure():
        try:
            res = rq.get(url,timeout=30)
            res.raise_for_status()
            res.encoding = res.apparent_encoding
            return res.text
        except:
            return "发生异常,响应码为{}".format(res.status_code)
        
    if __name__ == "__main__":
        r = res_caputure()
        soup = BeautifulSoup(r)
        a = soup.select('a[target]')
        p = soup.select('span')
        soup_p=[]
        soup_a=[]
        s=input("输入要查看百度贴吧话题热议榜单的条数(直接回车默认为10条,最高为30):")
        
        if s=='':
            s=10
        else:
            s=int(s)
            
        for k in range(3,s*2+3,2):
            soup_p.append(p[k].string)
        for i in range(0,s):
            soup_a.append(a[i].string)
        dt={'排名':range(1,s+1),'标题':soup_a,'内容数':soup_p}
        df=pd.DataFrame(dt)
        print(df)

     

  • 相关阅读:
    HTML area coords 属性
    在Java中,替换字符串String中特定索引处的字符char?
    JavaScript 之 history对象
    JavaScript 之 location 对象
    JavaScript 之 定时器
    JavaScript 之 页面加载事件
    JavaScript 之 对话框
    JavaScript 之 BOM
    Java 之 可变参数
    Java 之 LinkedHashSet 集合
  • 原文地址:https://www.cnblogs.com/3072952697whl/p/12813289.html
Copyright © 2011-2022 走看看