Python爬虫-爬小说 - 走看看

zoukankan html css js c++ java

Python爬虫-爬小说
用途

用来爬小说网站的小说默认是这本御天邪神，虽然我并没有看小说，但是丝毫不妨碍我用爬虫来爬小说啊。
如果下载不到txt，那不如自己把txt爬下来好了。

功能
- 将小说取回，去除HTML标签
- 记录已爬过/未爬过的章节
- 从最后爬过那一页开始继续爬，不会重复爬取爬过的目录
  因为爬过的章节是要有顺序的，目前版本还没有支持多线程。（线程混乱分不清章节先后）
使用方式

Python的安装是必须，除此之外，还有这些依赖
```
(Py3Env) Caden-Mac:Fun caden$ pip list --format=columns
Package        Version  
-------------- ---------
beautifulsoup4 4.6.0    
html2text      2016.9.19
lxml           3.7.3    
requests       2.14.2   
```
依赖安装方式
pip install beautifulsoup4 lxml requests html2text
新建一个task.json的文件，放入spider.py同目录，内容如下
```
{
    "title": "御天邪神", 
    "base_url": "http://i.258zw.com/wapbook-1852/", 
    "last_page_url": ""
}
```
title是书名，base_url是章节的第一页，last_page_url留空就好
python spider.py开始运行，然后等待直到结束。
就像这样：

python源码：Github-Syler-Fun-spider.py
查看全文

相关阅读:
大纲锤炼：深入浅出WF4.0
谈谈技术面试 A Lazy Programmer's Footprint
推荐一本写给IT项目经理的好书
 UML成长笔记
 写于Silverlight整装待发之际【瞿杰】
虛擬化、iPad/iPhone相關運用、攝影方面
 (2)经典导读：(webabcd)的Silverlight文章索引
 (1)经典导读：坚持学习WF文章索引[carysun]
索引测试
 js导航条二级滑动模仿块级作用域

原文地址：https://www.cnblogs.com/asis/p/6935572.html

Copyright © 2011-2022 走看看