zoukankan      html  css  js  c++  java
  • 爬取校园新闻首页的新闻

     1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题、链接、正文。
     
     import requests
     from bs4 import BeautifulSoup
      
     url = 'http://news.gzcc.cn/html/xiaoyuanxinwen/'
     res = requests.get(url)
     res.encoding = 'utf-8'
     soup = BeautifulSoup(res.text, 'html.parser')
     for news in soup.select('li'):
     if len(news.select('.news-list-title')) > 0:
     print(news.select('.news-list-title'))
     t=news.select('.news-list-title')[0].text
     dt=news.select('.news-list-info')[0].contents[0].text
     a=news.select('a')[0].attrs['href']
     print(dt,t,a)
     
     2. 分析字符串,获取每篇新闻的发布时间,作者,来源,摄影等信息。
     
     for news in soup.select('li'):
     if len(news.select('.news-list-title'))>0:
     title = news.select('.news-list-title')[0].text
     a = news.select('a')[0].attrs['href']
     
     resd = requests.get(a)
     resd.encoding = 'utf-8'
     soupd = BeautifulSoup(resd.text, 'html.parser')
     d = soupd.select('#content')[0].text
     info = soupd.select('.show.info')[0].text
     print(info)
     dt = info.lstrip('发布时间:')[:19]#发布时间
     dt2 = datetime.strptime(dt, '%Y-%m-%d %H:%M:%S')
     print(dt2)
     i = info.find('来源:')
     if i>0:
     s = info[info.find('来源:'):].split()[0].lstrip('来源:')#来源
     print(s)
     a = info.find('作者:')
     if a > 0:
     l = info[info.find('作者:'):].split()[0].replace('作者:')#作者
     print(l)
     y = info.find('摄影:')
     if y > 0:
    u = info[info.find('摄影:'):].split()[0].replace('摄影:')#摄影 print(u) 3. 将其中的发布时间由str转换成datetime类型。 import requests from bs4 import BeautifulSoup from datetime import datetime gzccurl = 'http://news.gzcc.cn/html/xiaoyuanxinwen/' res = requests.get(gzccurl) res.encoding='utf-8' soup = BeautifulSoup(res.text,'html.parser') for news in soup.select('li'): if len(news.select('.news-list-title'))>0: title = news.select('.news-list-title')[0].text#标题 url = news.select('a')[0]['href']#链接 time = news.select('.news-list-info')[0].contents[0].text dt = datetime.strptime(time,'%Y-%m-%d') source = news.select('.news-list-info')[0].contents[1].text#来源
    print(dt,' ',title,' ',url,' ',source,' ')
  • 相关阅读:
    Running APP 使用说明
    Android 控件八 WebView 控件
    Android 控件七 ImageView 控件
    Android 控件六 CheckBox 控件
    Android 控件五 RadioButton 控件
    Android 控件四 EditText 控件
    Android 控件三 TextView 控件实现 Button
    Android 控件二 Button
    Android 基础控件演示实例
    Android 控件一 TextView
  • 原文地址:https://www.cnblogs.com/AAAAAAAA/p/8696789.html
Copyright © 2011-2022 走看看