zoukankan      html  css  js  c++  java
  • python抓取知识星球精选帖,制作为pdf文件

    版权声明:本文为xing_star原创文章,转载请注明出处!

    本文同步自http://javaexception.com/archives/90

    背景:

    这两年知识付费越来越热,我也加入了不少知识星球,总觉得信息有些过载了。一天不看,就有500+的内容显示未读,弄的自己格外的焦虑。感觉这样非常不好,就想要找办法解决,比如把精华帖抓取下来制作成pdf文件,这样自己随时可以翻阅,或者拿出整块的时间阅读,不用担心遗漏。记得年初的时候做过一番尝试,在Github上看到几个不错的项目,关于抓取知识星球帖子内容的开源项目,测试了几个,选中了一个非常不错的项目,当然了自己对这个项目的代码做了一点点小调整,fork了一份,地址是https://github.com/xingstarx/crawl-zsxq

    解决办法:

    由于知识星球官方对反爬比较严,有一些反制手段,这个项目的代码也需要不断的迭代更新,这是一个攻防对抗的过程。

    具体如何执行就不讲了,可以看这个项目的readme。按照上面的描述,准备python环境,以及相关的依赖,然后修改对应的header里面的关键参数,那么就可以将程序跑起来了。

    常见的问题:

    这里额外说一下程序跑起来的过程中,会碰到的一些问题。

    1.header信息修改的有问题,这块可以通过chrome浏览器的开发者工具解决,或者是charles抓包工具解决,不懂的可以google下

    2.执行crawl.py的时候,如果提示ssl等之类的问题,那么关掉charles之类的抓包工具

    3.如果爬取的文件特别多,特别大,几百上千个文件,还包含图片的,这种最好分步骤操作,比如先把html下载下来,接着分为3-5部分,每次取出1/3或者1/5的量执行make_pdf函数,这个可能需要修改下代码,可以参考https://github.com/xingstarx/crawl-zsxq/issues/1

    另外这个开源项目是为了方便自己的,还是不要用于盗版,作恶可不好,还是多尊重知识,尊重版权啊。

    项目地址:

    https://github.com/xingstarx/crawl-zsxq

  • 相关阅读:
    Markdown文档示例
    Python网络编程(一)
    JS之客户端检测
    MySQL 多表查询
    MySQL 单表查询
    MySQL 入门
    Python内置方法大全
    010 盒模型
    009 CSS选择器
    008 常用样式
  • 原文地址:https://www.cnblogs.com/xing-star/p/10849441.html
Copyright © 2011-2022 走看看