zoukankan      html  css  js  c++  java
  • 用requests库和BeautifulSoup4库爬取新闻列表

    • 用requests库和BeautifulSoup4库,爬取校园新闻列表的时间、标题、链接、来源。
    • 选一个自己感兴趣的主题,做类似的操作,为“爬取网络数据并进行文本分析”做准备。
    import requests
    from bs4 import BeautifulSoup
    net = 'http://news.gzcc.cn/html/xiaoyuanxinwen/'
    res = requests.get(net)
    res.encoding='utf-8'
    doc = BeautifulSoup(res.text,'html.parser',from_encoding='utf-8')
    for news in doc.select('li'):
        if len(news.select('.news-list-title'))>0:
            title = news.select('.news-list-title')[0].text
            url = news.select('a')[0]['href']
            time = news.select('.news-list-info')[0].contents[0].text
            main = news.select('.news-list-description')[0].text
            source = news.select('.news-list-info')[0].contents[1].text
            print('Url:{}'.format(news.select('a')[0]['href']))
            print('标题:{}'.format(news.select('.news-list-title')[0].text))
            print('正文:{}'.format(news.select('.news-list-description')[0].text))
            print('时间:{}'.format(news.select('.news-list-info')[0].contents[0].text))
            print('来源:{}'.format(news.select('.news-list-info')[0].contents[1].text))

  • 相关阅读:
    Java接口面面观
    Java之今天的异常处理了吗
    Java中自动装箱与拆箱详解
    java中this关键字解析
    Java语言实现机制
    Centos7 中 service iptables save 失效
    基于JQuery网页漂浮广告窗口Js详解
    JS日历
    js时间转换
    两种方法实现在HTML页面加载完毕后运行某个js
  • 原文地址:https://www.cnblogs.com/knight-hui/p/7600954.html
Copyright © 2011-2022 走看看