python抓取知识星球精选帖,制作为pdf文件

zoukankan html css js c++ java

python抓取知识星球精选帖,制作为pdf文件

版权声明：本文为xing_star原创文章，转载请注明出处！

本文同步自http://javaexception.com/archives/90

背景:

这两年知识付费越来越热，我也加入了不少知识星球，总觉得信息有些过载了。一天不看，就有500+的内容显示未读，弄的自己格外的焦虑。感觉这样非常不好，就想要找办法解决,比如把精华帖抓取下来制作成pdf文件，这样自己随时可以翻阅，或者拿出整块的时间阅读，不用担心遗漏。记得年初的时候做过一番尝试，在Github上看到几个不错的项目，关于抓取知识星球帖子内容的开源项目，测试了几个，选中了一个非常不错的项目，当然了自己对这个项目的代码做了一点点小调整，fork了一份，地址是https://github.com/xingstarx/crawl-zsxq。

解决办法:

由于知识星球官方对反爬比较严，有一些反制手段，这个项目的代码也需要不断的迭代更新，这是一个攻防对抗的过程。

具体如何执行就不讲了，可以看这个项目的readme。按照上面的描述，准备python环境，以及相关的依赖，然后修改对应的header里面的关键参数，那么就可以将程序跑起来了。

常见的问题:

这里额外说一下程序跑起来的过程中，会碰到的一些问题。

1.header信息修改的有问题，这块可以通过chrome浏览器的开发者工具解决，或者是charles抓包工具解决，不懂的可以google下

2.执行crawl.py的时候，如果提示ssl等之类的问题，那么关掉charles之类的抓包工具

3.如果爬取的文件特别多，特别大，几百上千个文件，还包含图片的，这种最好分步骤操作，比如先把html下载下来，接着分为3-5部分，每次取出1/3或者1/5的量执行make_pdf函数，这个可能需要修改下代码，可以参考https://github.com/xingstarx/crawl-zsxq/issues/1。

另外这个开源项目是为了方便自己的，还是不要用于盗版，作恶可不好，还是多尊重知识，尊重版权啊。

项目地址:

https://github.com/xingstarx/crawl-zsxq

查看全文

相关阅读:
如何在image加载的图片上再加载一个透明PNG水印图片
 Sublime3在windows下安装
 Redash中文版安装问题大全
 Ubuntu20.04和Docker环境下安装Redash中文版
 ubuntu 设置sudo 免密码
 ubuntu开启sshd
secureCRT登录ubuntu 报错：`No compatible key-exchange method. The server supports these methods: diffie-hellman`
监控elasticsearch
修改因python是3版本导致的yum问题
 elk使用微信ElartAlert企业微信告警，自定义告警内容

原文地址：https://www.cnblogs.com/xing-star/p/10849441.html

python抓取知识星球精选帖,制作为pdf文件

背景:

解决办法:

常见的问题:

项目地址: