zoukankan      html  css  js  c++  java
  • 用requests库和BeautifulSoup4库爬取新闻列表

    1、用requests库和BeautifulSoup4库,爬取校园新闻列表的时间、标题、链接、来源。

    import requests
    from bs4 import BeautifulSoup
    res=requests.get('http://news.gzcc.cn/html/xiaoyuanxinwen/')
    res.encoding='utf-8'
    soup=BeautifulSoup(res.text,'html.parser')
    
    for news in soup.select('li'):
        if len(news.select('.news-list-title'))>0:
          title=news.select('.news-list-title')[0].text
          url=news.select('a')[0]['href']
          time=news.select('.news-list-info')[0].contents[0].text
          laiyuan=news.select('.news-list-info')[0].contents[1].text
          print(title,url,time,laiyuan)
    

    2、选一个自己感兴趣的主题,做类似的操作,为“爬取网络数据并进行文本分析”做准备。

    import requests
    from bs4 import BeautifulSoup
    res=requests.get('http://trips.tuniu.com/search?q=%E9%9F%B6%E5%85%B3')
    res.encoding='utf-8'
    soup=BeautifulSoup(res.text,'html.parser')
    
    for trips in soup.select('li'):
        if len(trips.select('.list-name'))>0:
          title=trips.select('.list-name')[0].text
          url=trips.select('a')[0]['href']
          print(title,url)
    

      

  • 相关阅读:
    HDU-2067-小兔的棋盘
    HDU-1861-游船出租
    C语言笔记
    P1164 小A点菜
    P1028 数的计算
    P1217 [USACO1.5]回文质数 Prime Palindromes
    P1088 火星人
    P2392 kkksc03考前临时抱佛脚
    P3799 妖梦拼木棒
    First Step (ファーストステップ)
  • 原文地址:https://www.cnblogs.com/elewen/p/7604361.html
Copyright © 2011-2022 走看看