zoukankan      html  css  js  c++  java
  • ×欲毕竟也是生产力

    来。

    https://github.com/mlxy/TumblrSpider

    把两篇之前的博文中提到的脚本升级了一下。

    把两个脚本结合起来,一页一页地爬取一个博客,发现文件已经有了就直接停下来,这样就可以加到计划任务里每天运行一遍了。

    另外加上了配置文件,支持一次下载多个博客的内容,还可以指定要下些什么格式的文件。

    我只测试了nondenete和eeekou这两个博客。

    说下过程。

    首先人肉看源码,我发现两个博客的博文目录里实际上都有一个查看大图的按钮,虽然页面上看不到。

    但是蛋疼的是两个博客的查看大图的文字是不一样的,一个叫Zoom Picture,一个就叫Zoom,于是我不管三七二十一地认为其他博客起码也都有zoom这么个单词。

    总之就用这个'(http.*.(%s)).*Zoom'来匹配了所有离Zoom最近的图片链接。

    所以说虽然我装模作样地弄了配置项,其实也只能下图片。

    其他的问题上篇博文都说到了。

    这就说完了。

    之后根据使用情况再改进。

    另外我发现我Python代码写得丑毙了。

    =======================================================================================================

    日志也丑毙了:

  • 相关阅读:
    java 反编译和文档生成器
    java 导入自定义类
    hust 1010 最短循环节点
    KMP算法
    hiho 第119周 最大权闭合子图
    2007 Asia
    hiho 第1周 最长回文子串
    hiho 第118周 网络流四·最小路径覆盖
    hiho 第117周 二分图多重匹配,网络流解决
    成为一名JAVA高级工程师你需要学什么
  • 原文地址:https://www.cnblogs.com/chihane/p/4214186.html
Copyright © 2011-2022 走看看