zoukankan      html  css  js  c++  java
  • 文本分析

    校园新闻内容提取。

    import requests
    from bs4 import BeautifulSoup
    url='http://news.gzcc.cn/html/xiaoyuanxinwen/'
    res=requests.get(url)
    res.encoding='utf-8'
    soup=BeautifulSoup(res.text,'html.parser')
    
    for news in soup.select('li'):
        if len(news.select('.news-list-title'))>0:
            title=news.select('.news-list-title')[0].text #标题
            url=news.select('a')[0]['href']#网址
            time=news.select('.news-list-info')[0].contents[0].text#时间
            bumen=news.select('.news-list-info')[0].contents[1].text#院系
            txt=news.select('.news-list-description')[0].text #正文
            print(time,title,bumen,txt,url)
            

     

  • 相关阅读:
    bug
    UIFont
    OC
    iOS 之 多线程一
    OC 之 const
    我的读书单
    算法之回文数判断
    排序算法 之 一
    isEqual
    xcode 必用插件二
  • 原文地址:https://www.cnblogs.com/guo2016/p/7600926.html
Copyright © 2011-2022 走看看