zoukankan      html  css  js  c++  java
  • 爬取校园新闻首页的新闻

    1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题、链接、正文。

    import requests
    from bs4 import BeautifulSoup
    
    url='http://news.gzcc.cn/html/xiaoyuanxinwen/'
    res=requests.get(url)
    res.encoding='utf-8'
    soup=BeautifulSoup(res.text,'html.parser')
    for news in soup.select('li'):
        if len(news.select('.news-list-title'))>0:
            # print(news.select('.news-list-title'))
            t=news.select('.news-list-title')[0].text#取标题
            dt=news.select('.news-list-info')[0].contents[0].text#取日期
            a=news.select('a')[0].attrs['href']#取链接
    
            resd=requests.get(a)
            resd.encoding='utf-8'
            soupd=BeautifulSoup(resd.text,'html.parser')
            print(news.select('.news-list-title')[0].text)#取标题
            print(news.select('a')[0].attrs['href'])#取链接
            print(soupd.select('#content')[0].text)#取整篇文章
            break

    2. 分析字符串,获取每篇新闻的发布时间,作者,来源,摄影。

       info=soupd.select('.show-info')[0].text
            dt=info.lstrip('发布时间:')[:19]#发布时间
            i=info.find('来源:')
            if i > 0:
                s = info[info.find('来源:'):].split()[0].lstrip('来源:')  # 来源
                print(s)
            y = info.find('摄影:')
            if y > 0:
                u = info[info.find('摄影:'):].split()[0].replace('摄影:')  # 摄影
                print(u)
                a = info.find('作者:')
                if a > 0:
                    l = info[info.find('作者:'):].split()[0].replace('作者:')  # 作者
                    print(l)
                print(info.lstrip('发布时间:')[:19])

    3. 将其中的发布时间由str转换成datetime类型。

    from _datetime import datetime
    str = '2018-03-30 17:10:12'
    dt =datetime.strptime(str,'%Y-%m-%d %H:%M:%S')
    now = datetime.now()
    type(now)
    now.strftime("%Y-%m-%d %H:%M:%S")
  • 相关阅读:
    单例/单体模式(Singleton)
    步步为营 .NET 设计模式学习笔记 六、Adapter(适配器模式)
    分享18个非常棒的 jQuery 表格插件
    线程池 vs 专有线程
    介绍27款经典的CSS框架
    一些系统开发及项目管理的资料
    SQL数据库中的XML应用
    SQLite之初体验
    AsyncBox 一款基于 jQuery 的弹窗组件
    弹出图片层
  • 原文地址:https://www.cnblogs.com/qq8675/p/8693214.html
Copyright © 2011-2022 走看看