zoukankan      html  css  js  c++  java
  • Python爬虫,用第三方库解决下载网页中文本的问题

    Python爬虫,用第三方库解决下载网页中文本的问题

     还在辛辛苦苦的查找网页规律,写正则或者其他方式去匹配文本内容吗?还在纠结怎么去除小说网站的其他字符吗?

    先来看看下面2张图,都是某小说网站的小说内容

    Python爬虫,用第三方库解决下载网页中文本的问题

     Python爬虫,用第三方库解决下载网页中文本的问题

     怎么样,是不是很简洁!这就是今天给大家介绍的库,newspaper库!

    newspaper

    python3.x安装: pip install newspaper3k

    python2.7安装: pip install newspaper

    简单的给大家说说它的功能:

    首先是获取网页所有url的功能,我们以sina新闻为例子,写代码如下:

    Python爬虫,用第三方库解决下载网页中文本的问题

     看,这就把新浪新闻主页的所有url链接抓到了,是不是很快捷!(当然结果还是需要各种筛选)

    提取网页所有文本内容,这次我们随便找个新闻来试试!

    Python爬虫,用第三方库解决下载网页中文本的问题

     是不是很方便~!!而且这个对小说网站依然有效(还记得开始的图吗?)!!大家可以去试试。

    当然,这个库还有其他很多的功能,这里就不一一说明了,大家可以自行去摸索哦!

    最后

    这是一个非常不错的库,适合用来写爬虫,如有不懂的地方我在评论区等着你,关注一下,与你共享更多有用的知识。大家加油!

    参考来源:https://github.com/codelucas/newspaper

  • 相关阅读:
    JavaScript中的prototype
    SQL 时间格式转换
    ASP.NET MVC自定义视图引擎ViewEngine 创建Model的专属视图
    JavaScript事件使用指南
    30行代码实现JavaScript中的MVC
    JavaScript中this指针指向的彻底理解
    JavaScript 中的命名空间
    C#嵌套类型
    C# 为枚举创建新方法
    Lambda 表达式
  • 原文地址:https://www.cnblogs.com/qun542110741/p/9227542.html
Copyright © 2011-2022 走看看