zoukankan      html  css  js  c++  java
  • 吴裕雄--天生自然PYTHON爬虫:使用BeautifulSoup解析中国旅游网页数据

    import requests
    from bs4 import BeautifulSoup
    
    url = "http://www.cntour.cn/"
    strhtml = requests.get(url)
    soup = BeautifulSoup(strhtml.text,"lxml")
    #下面的参数由网站开发者模式中Copy->copy selector复制而来
    data = soup.select("#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li:nth-child(1) > a")
    print(data)

    import requests
    from bs4 import BeautifulSoup
    
    url = "http://www.cntour.cn/"
    strhtml = requests.get(url)
    soup = BeautifulSoup(strhtml.text,"lxml")
    #下面的参数由网站开发者模式中Copy->copy selector复制而来,获取该网站所有超链接内容,删掉::nth-child(1),如下:
    data = soup.select("#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a")
    print(data)

    #清洗和组织爬取到的数据
    import requests
    from bs4 import BeautifulSoup
    
    url = "http://www.cntour.cn/"
    strhtml = requests.get(url)
    soup = BeautifulSoup(strhtml.text,"lxml")
    #下面的参数由网站开发者模式中Copy->copy selector复制而来,获取该网站所有超链接内容,删掉::nth-child(1),如下:
    data = soup.select("#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a")
    for item in data:
        result={
            "title":item.get_text(),
            "link":item.get("href")
        }
        print(result)

    #清洗和组织爬取到的数据,获取每个链接后面的ID
    import re
    import requests
    from bs4 import BeautifulSoup
    
    url = "http://www.cntour.cn/"
    strhtml = requests.get(url)
    soup = BeautifulSoup(strhtml.text,"lxml")
    #下面的参数由网站开发者模式中Copy->copy selector复制而来,获取该网站所有超链接内容,删掉::nth-child(1),如下:
    data = soup.select("#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a")
    for item in data:
        result={
            "title":item.get_text(),
            "link":item.get("href"),
            "ID":re.findall("d+",item.get("href"))
        }
        print(result)

  • 相关阅读:
    《敏捷开发修炼之道》学习笔记3:交付用户想要的软件
    Photoshop快捷键大集合
    如何制作已编译的HTML帮助文件(即CHM帮助文件)
    根本不存在 DIV + CSS 布局这回事
    可将视频转换成Gif动画的相关软件
    SEO是什么?与spam有什么区别呢?
    视频六大编辑软件大比拼
    陈彤:一个网络编辑的11年
    最近出现的p2psvr.exe恶意程序的解决办法
    使用火狐浏览器Firefox的一些小技巧
  • 原文地址:https://www.cnblogs.com/tszr/p/12185145.html
Copyright © 2011-2022 走看看