zoukankan      html  css  js  c++  java
  • 假期学习【七】首都之窗信件爬取(单一页面)

    今天主要又继续了Python网络爬虫的学习,并完成了首都之窗百姓信件单一页面的爬取,明天打算完成整个爬虫任务。

    源代码如下:

    import requests
    from bs4 import BeautifulSoup
    
    kv = {'user-agent': 'Mozilla/5.0'}
    id="AH20020400088"
    url="http://www.beijing.gov.cn/hudong/hdjl/com.web.consult.consultDetail.flow?originalId="+id
    
    def parser(url):
        try:
            r = requests.get(url, headers=kv)
            print(r.status_code)
            demo = r.text
            soup = BeautifulSoup(demo, "html.parser")
            print(soup.prettify())
            print("标题:", soup.find("strong").get_text())
            print("来信人:",soup.find_all("div", {"class": "col-xs-10 col-lg-3 col-sm-3 col-md-4 text-muted"})[0].get_text().lstrip('来信人:').lstrip().rstrip())
            print("时间:",soup.find_all("div", {"class": "col-xs-5 col-lg-3 col-sm-3 col-md-3 text-muted"})[0].get_text().lstrip('时间:'))
            print("网友同问:", soup.find_all("div", {"class": "col-xs-4 col-lg-3 col-sm-3 col-md-3 text-muted"})[0].get_text().lstrip().rstrip().lstrip("网友同问:").lstrip().rstrip())
            print("问题:", soup.find_all("div", {"class": "col-xs-12 col-md-12 column p-2 text-muted mx-2"})[0].get_text().lstrip().rstrip())
            print("官方:", soup.find_all("div", {"class": "col-xs-9 col-sm-7 col-md-5 o-font4 my-2"})[0].get_text())
            print("回答时间:",soup.find_all("div", {"class": "col-xs-12 col-sm-3 col-md-3 my-2"})[0].get_text().lstrip('答复时间:'))
            print("回答:", soup.find_all("div", {"class": "col-xs-12 col-md-12 column p-4 text-muted my-3"})[0].get_text().lstrip().rstrip())
        except:
            print("爬取失败!")
    
    if __name__=="__main__":
        parser(url)
    View Code

    运行结果:

  • 相关阅读:
    纳维-斯托克斯方程 据说 很牛 ?
    霍奇猜想
    关于 四色定理 和 霍奇猜想
    我给出了一个 四色定理 的 证明
    在 兄弟们我挡不住了 中 的 回复 续
    在 兄弟们我挡不住了 中 的 回复
    在 没什么思路,帮解答下,谢谢 中 的 回复
    在 10元悬赏 中 的 回复
    在 大家的做题热情实在是高 故开新帖继续做题 中 的 回复
    做一道 高一 求 函数 值域 的 题
  • 原文地址:https://www.cnblogs.com/zlc364624/p/12264011.html
Copyright © 2011-2022 走看看