zoukankan      html  css  js  c++  java
  • 获取一篇新闻的全部信息

    标题、作者、发布单位、审核、来源

    发布时间:转换成datetime类型

    点击:

    • newsUrl
    • newsId(使用正则表达式re)
    • clickUrl(str.format(newsId))
    • requests.get(clickUrl)
    • newClick(用字符串处理,或正则表达式)
    • int()
    • 主要代码如下:
    • # -*- coding: utf-8 -*-
      import re
      import requests
      from bs4 import BeautifulSoup
      from datetime import datetime
      def click(url):
      clickurl='http://oa.gzcc.cn/api.php?op=count&id=&modelid=80'
      res=requests.get(clickurl)
      click=res.text.split('.html')[-1].lstrip("('").rstrip("');")
      return click
      def newsnum(url):
      newsid=re.match('http://news.gzcc.cn/html/2019/xiaoyuanxinwen_0320/(.*).html',url).group(1)
      return newsid
      def newstime(url,soup):
      '''
      time=soup.select('.show-info')[0].text[5:24]
      time=soup.select('.show-info')[0].text.split()[0].lstrip('发布的时间为')
      '''
      newsdate=soup.select('.show-info')[0].text.split()[0].split(':')[1]
      newstime=soup.select('.show-info')[0].text.split()[1]
      time=newsdate+' '+newstime
      time=datetime.strptime(time,'%Y-%m-%d %H:%M:%S')
      return time
      def news(url):
      res=requests.get(url)
      res.encoding='utf-8'
      soup=BeautifulSoup(res.text,'html.parser')
      title=soup.select('.show-title')[0].text
      author=soup.select('.show-info')[0].text.split()[2]
      auditor=soup.select('.show-info')[0].text.split()[3]
      comefrom=soup.select('.show-info')[0].text.split()[4]
      detail=soup.select('.show-content p')[0].text
      newsid=newsnum(url)
      time=newstime(url,soup)
      clicktime=click(url)
      p=print(newsid,title,time,author,auditor,comefrom,detail,clicktime)
      return p
      url="http://news.gzcc.cn/html/2019/xiaoyuanxinwen_0320/11029.html"
      news(url)

    • 运行结果
  • 相关阅读:
    《构建之法》阅读笔记07
    学习进度条——第六周
    《构建之法》阅读笔记06
    团队开发
    《构建之法》阅读笔记05
    数组3——返回二维数组中最大联通子数组的和
    学习进度条——第五周
    坯布检验管控系统
    DateTime日期格式转换,不受系统格式的影响
    多层下firebird自增长字段的处理
  • 原文地址:https://www.cnblogs.com/timchan/p/10648144.html
Copyright © 2011-2022 走看看