zoukankan      html  css  js  c++  java
  • Python爬虫-爬小说

    用途

    用来爬小说网站的小说默认是这本御天邪神,虽然我并没有看小说,但是丝毫不妨碍我用爬虫来爬小说啊。
    如果下载不到txt,那不如自己把txt爬下来好了。

    功能

    • 将小说取回,去除HTML标签
    • 记录已爬过/未爬过的章节
    • 从最后爬过那一页开始继续爬,不会重复爬取爬过的目录
      因为爬过的章节是要有顺序的,目前版本还没有支持多线程。(线程混乱分不清章节先后)

    使用方式

    Python的安装是必须,除此之外,还有这些依赖

    (Py3Env) Caden-Mac:Fun caden$ pip list --format=columns
    Package        Version  
    -------------- ---------
    beautifulsoup4 4.6.0    
    html2text      2016.9.19
    lxml           3.7.3    
    requests       2.14.2   
    

    依赖安装方式
    pip install beautifulsoup4 lxml requests html2text
    新建一个task.json的文件,放入spider.py同目录,内容如下

    {
        "title": "御天邪神", 
        "base_url": "http://i.258zw.com/wapbook-1852/", 
        "last_page_url": ""
    }
    

    title是书名,base_url是章节的第一页,last_page_url留空就好
    python spider.py开始运行,然后等待直到结束。
    就像这样:

    python源码:Github-Syler-Fun-spider.py

  • 相关阅读:
    前端基础之BOM和DOM
    JavaScript
    css-属性、样式调节
    计算机操作系统
    计算机组成原理
    计算机基础之编程
    css-选择器
    HTML-标签
    python打印有色字体
    mysql 数据库语法详解
  • 原文地址:https://www.cnblogs.com/asis/p/6935572.html
Copyright © 2011-2022 走看看