zoukankan      html  css  js  c++  java
  • Python导出微信公众号文章

         平时我们可能需要把感兴趣的公众号的文章保存为pdf,方便离线查看,也可以避免某些文章被删除后看不到。所以我们需要把该公众号的文章批量导出为pdf。这里我们使用python来实现该功能。

    1、导出该公众号的所有文章链接等信息为CSV文件。

         首先我们安装chrome的webscraper插件,用来爬取自己感兴趣的公众号的文章导出为CSV文件。文件保存文章的标题,时间和链接。具体插件的使用细节自己百度。

    2、根据第一步生成的CSV文件批量导出为pdf

         首先我们安装wkhtmltopdf工具程序。然后编写程序来读取上一步得到的csv文件批量导出为pdf。这里由于微信的图片防盗链措施,直接根据url导出pdf会发现图片缺失。所以我们需要对请求得到的html文件进行处理后,再导出为pdf。具体核心代码如下:

     1 def process(item):
     2     url = str(item[2])
     3     name = item[1] + item[0] + '.pdf'
     4     response = requests.get(url)
     5     html = response.text
     6     html = html.replace('data-src', 'src')
     7 
     8     try:
     9         pdfkit.from_string(html, name)
    10     except:
    11         pass
    12     
    13 with open("weixin.csv","r",encoding="gbk") as f:
    14     f_csv=csv.reader(f)
    15     next(f_csv)
    16     pool = ThreadPool(processes=20)
    17     pool.map(process, (i for i in f_csv))
    18     pool.close() 
     
     

    其中使用了线程池来加速处理生成pdf,本地测试一分钟可以导出90+篇文章。

         代码:GitHub

  • 相关阅读:
    uva 494 Kindergarten Counting Game
    uva 458
    Spring--quartz中cronExpression配置说明
    配置DTD提示的方法
    MySQL中怎么查询一张表的列数
    mysql 数据库的名称不能以数字开头
    Navicat: Can't create a procedure from within another stored routine
    解决JQUERY $符号的冲突
    如何截取iframe的内容,修改他的CSS
    struct框架
  • 原文地址:https://www.cnblogs.com/wzf-Learning/p/11153963.html
Copyright © 2011-2022 走看看