zoukankan      html  css  js  c++  java
  • python3使用newspaper快速抓取任何新闻文章正文

    newspaper用于爬取各式各样的新闻网站

    1,安装newspaper

    pip install newspaper3k

    2,直接上代码

    from newspaper import Article

    url
    = '你想要爬取的网站url' news = Article(url, language='zh')
    news .download() #先下载 news .parse() #再解析
    print(news.text) #新闻正文 print(news.title) #新闻标题 print(news.html) #未修改的原始HTML print(news.authors) #新闻作者 print(news.top_image) #本文的“最佳图像”的URL print(news.movies) #本文电影url print(news.keywords) #新闻关键词 print(news.summary) #从文章主体txt中生成的摘要
    print(news.images) #本文中的所有图像url



  • 相关阅读:
    10.20stark组件已经完工
    webpack3到webpack4
    app埋点
    postman使用
    phantomjs
    nodejieba中文分词
    爬虫--cheerio
    mysql命令(三)
    mysql学习(二)
    mysql安装登录
  • 原文地址:https://www.cnblogs.com/lvye001/p/9832258.html
Copyright © 2011-2022 走看看