zoukankan      html  css  js  c++  java
  • 用requests库和BeautifulSoup4库爬取新闻列表

    • 用requests库和BeautifulSoup4库,爬取校园新闻列表的时间、标题、链接、来源。
      import requests
      from bs4 import BeautifulSoup
      url='http://news.gzcc.cn/html/xiaoyuanxinwen/'
      res=requests.get(url)
      res.encoding='utf-8'
      soup=BeautifulSoup(res.text,'html.parser')
      for news in soup.select('li'):
          if len(news.select('.news-list-title'))>0:
              title=news.select('.news-list-title')[0].text #标题
              time=news.select('.news-list-info')[0].contents[0].text#时间
              url1=news.select('a')[0]['href']#url
              bumen=news.select('.news-list-info')[0].contents[1].text#部门
              description=news.select('.news-list-description')[0].text #描述
              print(time,title,bumen,url)

    • 选一个自己感兴趣的主题,做类似的操作,为“爬取网络数据并进行文本分析”做准备。
    import requests
    from bs4 import BeautifulSoup
    jq='http://news.qq.com/l/milite/milgn/list2010122872223.htm'
    res = requests.get(jq)
    res.encoding='gb2312'
    soup = BeautifulSoup(res.text,'html.parser')
    
    for news in soup.select('li'):
        if len(news.select('a'))>0:
            title=news.select('a')[0].text
            url=news.select('a')[0]['href']
            #time=news.select('span')[0].contents[0].text
            #print(time,title,url)
            print(title,url)

    结果:

    获取时间的那里显示IndexError: list index out of range

    但实际上里面不是空的,不知为何抓取不了

  • 相关阅读:
    centos7安装kubenetes
    用户密码字典
    curl使用
    docker部署rabbitmq集群
    记一次使用docker搭建fastdfs服务的过程
    filebeat删除多余标签
    Python format格式化输出
    python3 统计NGINX pv uv 最多IP访问
    linux修改网卡名为eth0
    模式查找
  • 原文地址:https://www.cnblogs.com/bb437601841/p/7600204.html
Copyright © 2011-2022 走看看