zoukankan      html  css  js  c++  java
  • 爬取校园新闻首页的新闻

    1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题、链接、正文。

    import requests
    from bs4 import BeautifulSoup
    url='http://news.gzcc.cn/html/xiaoyuanxinwen/'
    res = requests.get(url)
    res.encoding = 'utf-8'
    soup = BeautifulSoup(res.text, 'html.parser')
    for news in soup.select('li'):
    if len(news.select('.news-list-title'))>0:
    title = news.select('.news-list-title')[0].text
    source = news.select('.news-list-description')[0].text
    a = news.select('a')[0].attrs['href']
    print(title, source, a)
    break

    我校2018年新增学士学位授予专业评审工作顺利完成 3月29日,我校2018年新增学士学位授予专业评审会议在第二行政楼208会议室举行。 http://news.gzcc.cn/html/2018/xiaoyuanxinwen_0330/9155.html
    国际学院召开澳洲阿德莱德海外语言实践项目总结会 学院对项目学生出国前与回国后的语言能力进行测试,发现同学们的语言能力取得了明显进步。 http://news.gzcc.cn/html/2018/xiaoyuanxinwen_0330/9140.html
    加强校企合作,打造高素质人才培养平台 为了进一步完善学生人才培养和实践能力培育体系,深化产教融合、校企合作,旅游学院积极主动探索酒店管理专业校企合作多元化模式。 http://news.gzcc.cn/html/2018/xiaoyuanxinwen_0329/9129.html
    广东财经大学华商学院副院长郭银华一行来我校交流 3月29日,广东财经大学华商学院副院长郭银华一行4人来我校交流。 http://news.gzcc.cn/html/2018/xiaoyuanxinwen_0329/9125.html
    学校党委书记吕泉荣讲授新学期“思政第一课” 3月28日,我校党委书记吕泉荣讲授以“坚定信仰,执着追求”为主题的新学期“思政第一课”。 http://news.gzcc.cn/html/2018/xiaoyuanxinwen_0329/9122.html
    我校校长杨文轩教授讲授新学期“思政第一课” 3月27日下午,我校校长杨文轩教授在第四教学楼310室为学生讲授了新学期“思政第一课”。 http://news.gzcc.cn/html/2018/xiaoyuanxinwen_0328/9113.html
    新西兰梅西大学代表团来我校访问 3月27日,新西兰梅西大学商务发展与运营经理Rebecca Argyle一行来我校访问交流。 http://news.gzcc.cn/html/2018/xiaoyuanxinwen_0327/9106.html
    展大国风范,燃民族豪情——我校党委组织党员集体观影《厉害了,我的国》 本学期第三至四周,学校党委统筹,各支部组织教工党员集体观看电影《厉害了,我的国》。 http://news.gzcc.cn/html/2018/xibusudi_0327/9101.html
    我校学子在“外研社杯”华南大学生英语辩论赛中获佳绩 3月25日,我校学生在第二十一届“外研社杯”全国大学生英语辩论赛华南总决赛中荣获三等奖。 http://news.gzcc.cn/html/2018/xiaoyuanxinwen_0327/9100.html
    弘扬太极文化 提升身体素质——我校举行政工干部太极训练启动仪式 3月23日下午,学校在体育馆3楼举行政工干部太极训练启动仪式。 http://news.gzcc.cn/html/2018/xiaoyuanxinwen_0323/9089.html

    爬取正文:

    for news in soup.select('li'):
    if len(news.select('.news-list-title'))>0:
    a = news.select('a')[0].attrs['href']
    print(a)
    resd = requests.get(a)
    resd.encoding ='utf-8'
    soupd = BeautifulSoup(resd.text,'html.parser')
    print(soupd.select('#content')[0].text)
    break

    3月29日下午,我校2018年新增学士学位授予专业评审会议在第二行政楼208会议室举行。根据《广东省学位委员会关于做好2017年新增学士学位授予专业备案工作的通知》精神和广东省学位办要求,我校商务英语专业参加了本年度审核。

      评审专家组由湖南大学莫再树教授、华南师范大学教务处处长熊建文教授、暨南大学黄若妤教授、华南农业大学何高大教授、广东外语外贸大学朱文忠教授、广东第二师范学院吴慧坚教授、广州商学院袁泽沛教授组成,熊建文教授任组长。我校副校长刘根正、欧洁梅,相关职能部门负责人和工作人员参加了评审会议。会议由我校评建与督导办主任邬家炜教授主持。刘根正代表学校向专家组莅临我校指导工作表示感谢。他简要回顾了学校历年来学士学位授予专业的总体情况,并就商务英语专业的整体情况向专家组进行了介绍。

      答辩点评由熊建文教授主持。根据审核工作安排,专家组在评审会议之前已对申报专业开展了通讯评议。专家组审阅了相关材料,听取了商务英语专业负责人曾利沙教授的汇报,并进行了现场答辩。专家组一致认为,我校商务英语专业办学定位准确,建设思路清晰,教学管理规范,教学条件满足人才培养需要。商务英语专业已达到文学学士学位授予条件。曾利沙表示,商务英语专业将加大建设力度,加强师资队伍建设,充分发挥自身优势,培养高素质应用型人才。


    副校长刘根正讲话


    专家组组长熊建文点评


    会议现场

    2. 分析字符串,获取每篇新闻的发布时间,作者,来源,摄影等信息。


    for news in soup.select('li'):
    if len(news.select('.news-list-title'))>0:
    title = news.select('.news-list-title')[0].text
    a = news.select('a')[0].attrs['href']

    resd = requests.get(a)
    resd.encoding = 'utf-8'
    soupd = BeautifulSoup(resd.text, 'html.parser')
    d = soupd.select('#content')[0].text
    info = soupd.select('.show.info')[0].text
    print(info)
    dt = info.lstrip('发布时间:')[:19]#发布时间
    dt2 = datetime.strptime(dt, '%Y-%m-%d %H:%M:%S')
    print(dt2)
    i = info.find('来源:')
    if i>0:
    s = info[info.find('来源:'):].split()[0].lstrip('来源:')#来源
    print(s)
    a = info.find('作者:')
    if a > 0:
    l = info[info.find('作者:'):].split()[0].replace('作者:')#作者
    print(l)
    y = info.find('摄影:')
    if y > 0:
    u = info[info.find('摄影:'):].split()[0].replace('摄影:')#摄影
    print(u)

    3. 将其中的发布时间由str转换成datetime类型。

    from _datetime import datetime
    str = '2018-03-30 17:10:12'
    dt =datetime.strptime(str,'%Y-%m-%d %H:%M:%S')
    now = datetime.now()
    type(now)
    now.strftime("%Y-%m-%d %H:%M:%S")
  • 相关阅读:
    Python 自学笔记(二)
    Python 自学笔记(一)
    java.net.MalformedURLException: unknown protocol: 异常
    选择排序精简理解
    JAVA基于File的基本的增删改查
    Oracle常用操作表结构的语句
    jQuery
    基于jquery的ajax方法封装
    javascript运算符——条件、逗号、赋值、()和void运算符 (转载)
    javascript 闭包
  • 原文地址:https://www.cnblogs.com/a305810827/p/8692522.html
Copyright © 2011-2022 走看看