zoukankan      html  css  js  c++  java
  • 爬取新闻

    import requests
    from bs4 import BeautifulSoup
    url='http://news.gzcc.cn/html/xiaoyuanxinwen/'
    res=requests.get(url)
    res.encoding='utf-8'
    soup=BeautifulSoup(res.text,'html.parser')

    1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题、链接、正文。

    for news in soup.select('li'):
        if len(news.select('.news-list-title'))>0:
            t=news.select('.news-list-title')[0].text #标题
            a=news.select('a')[0].attrs['href'] #链接
            res1=requests.get(a)
            res1.encoding='utf-8'
            soup1=BeautifulSoup(res1.text,'html.parser')
            d=soup1.select('#content')[0].text #正文
            print(t,a,d)
    

    2. 分析字符串,获取每篇新闻的发布时间,作者,来源,摄影等信息。

    for news in soup.select('li'):
        if len(news.select('.news-list-title'))>0:
            t=news.select('.news-list-title')[0].text #标题
            a=news.select('a')[0].attrs['href'] #链接
            res1=requests.get(a)
            res1.encoding='utf-8'
            soup1=BeautifulSoup(res1.text,'html.parser')
            info=soup1.select('.show-info')[0].text
            print(info)

    3. 将其中的发布时间由str转换成datetime类型。

    from datetime import datetime
    str = '2018-04-02 17:10:12 '
    datetime.strptime(str,'%Y-%m-%d %H:%M:%S ')
    print(' ',str)

  • 相关阅读:
    E. 因数串
    三点共圆公式
    B-Suffix Array
    线段树求解连续区间问题
    E. Quantifier Question (拓扑排序求前驱和后继)
    CF1344B Monopole Magnets
    Multiset (权值线段树模版)
    459. 重复的子字符串 next数组
    6.21笔试小结
    canva学习笔记
  • 原文地址:https://www.cnblogs.com/BOBOWZH/p/8696625.html
Copyright © 2011-2022 走看看