×欲毕竟也是生产力 - 走看看

zoukankan html css js c++ java

×欲毕竟也是生产力

来。

https://github.com/mlxy/TumblrSpider

把两篇之前的博文中提到的脚本升级了一下。

把两个脚本结合起来，一页一页地爬取一个博客，发现文件已经有了就直接停下来，这样就可以加到计划任务里每天运行一遍了。

另外加上了配置文件，支持一次下载多个博客的内容，还可以指定要下些什么格式的文件。

我只测试了nondenete和eeekou这两个博客。

说下过程。

首先人肉看源码，我发现两个博客的博文目录里实际上都有一个查看大图的按钮，虽然页面上看不到。

但是蛋疼的是两个博客的查看大图的文字是不一样的，一个叫Zoom Picture，一个就叫Zoom，于是我不管三七二十一地认为其他博客起码也都有zoom这么个单词。

总之就用这个'(http.*.(%s)).*Zoom'来匹配了所有离Zoom最近的图片链接。

所以说虽然我装模作样地弄了配置项，其实也只能下图片。

其他的问题上篇博文都说到了。

这就说完了。

之后根据使用情况再改进。

另外我发现我Python代码写得丑毙了。

=======================================================================================================

日志也丑毙了：

查看全文

相关阅读:
python-----贴图和报错：OSError: image file is truncated (8 bytes not processed)的处理
 springboot集成RabbitMQ
MySQL数据库设计规范
 腾讯云COS对象存储
 腾讯云OCR图片文字识别
 java基础之 java注释
 centos7下自动备份mysql数据库
 nginx配置ssl证书
 java基础之控制语句
 js -- 操作sqlite数据库

原文地址：https://www.cnblogs.com/chihane/p/4214186.html

Copyright © 2011-2022 走看看