zoukankan      html  css  js  c++  java
  • 用requests库和BeautifulSoup4库爬取新闻列表

    • 用requests库和BeautifulSoup4库,爬取校园新闻列表的时间、标题、链接、来源。
    • 选一个自己感兴趣的主题,做类似的操作,为“爬取网络数据并进行文本分析”做准备。
    import requests
    from bs4 import BeautifulSoup
    net = 'http://news.gzcc.cn/html/xiaoyuanxinwen/'
    res = requests.get(net)
    res.encoding='utf-8'
    doc = BeautifulSoup(res.text,'html.parser',from_encoding='utf-8')
    for news in doc.select('li'):
        if len(news.select('.news-list-title'))>0:
            title = news.select('.news-list-title')[0].text
            url = news.select('a')[0]['href']
            time = news.select('.news-list-info')[0].contents[0].text
            main = news.select('.news-list-description')[0].text
            source = news.select('.news-list-info')[0].contents[1].text
            print('Url:{}'.format(news.select('a')[0]['href']))
            print('标题:{}'.format(news.select('.news-list-title')[0].text))
            print('正文:{}'.format(news.select('.news-list-description')[0].text))
            print('时间:{}'.format(news.select('.news-list-info')[0].contents[0].text))
            print('来源:{}'.format(news.select('.news-list-info')[0].contents[1].text))

  • 相关阅读:
    reactnative遇到的问题总结
    swiper使用总结-坑点汇总
    echars配置案例-reactnative
    REST架构
    web万维网 -- 基础概念
    (四)值栈与OGNL
    (三)Struts2 拦截器
    (二)Struts2 核心知识
    (一)问候Struts2
    在eclipse中使用Maven3(笔记二)
  • 原文地址:https://www.cnblogs.com/knight-hui/p/7600954.html
Copyright © 2011-2022 走看看