zoukankan      html  css  js  c++  java
  • 批量抓取微信公众号的文章

    2020年3月17号更新,目前程序一直稳定运行....

    记录一下今天的成果,确实可以抓取到,配置完成之后1分钟可以抓取100+(后来优化了一下,可以达到300左右)片吧,我没有用多进程,如果是多进程的话,效率会翻倍的增加。

    抓取思路

      网上的方法大约有三种

      第一:通过搜狗微信  搜索入口 ,模拟搜索抓取,效率比较低,而且还有验证码,反爬虫机制;建议放弃。

      第二:通过抓包工具截取htts请求的数据包,意思就是使用pc端微信登录,监听公众号的推送消息,每当监听到推送之后就把数据获取下来,缺点是无法获取以前的历史记录

      第三:通过微信公众号的后台获取cookie和token来抓取;缺点是需要注册一个公众号,而且token有过期时间

    以上几种是网友提供的思路,都可以实现,但同时也都有缺点。

    以下是我用第三种方法实现的;

    使用php,node.js都可以抓取;

      1.注册微信公众,登录之后选择新建素材,然后点击超链接,搜索任意公众号,保存该公众号的fakeid,同时保存cookie和token,

      2.在https请求中 设置header的cookie为第1步保存的cookie,参数是token,发送https请求,你会惊奇的发现已经拿下某公众号的历史记录 (默认40条);

      3.然后根据列表里面的内容链接地址,再获取具体的网页内容;

      4.把获取的内容存到本地的数据库中

    总结:以上思路仅供参考,具体实现需要靠自己;

    提示:源码收费,还请谅解;

    ------------------------------------------------------------------------------

    鉴于有人咨询了一下抓取程序价格,我在这里声明一下:

    抓取的功能没有你想的那么智能

    1.需要指定公众号(可以指定多个,没有上限)
    2.需要设置token以及对应的cookie参数(这两个参数登录微信公众号就可以获取,非常简单);

    3.抓取速度,关于这个问题,不敢说过快,一天爬取5000(20000条也爬过)条还是很轻松的(什么?5000-条数据也叫爬虫,你tmd傻X吧,客观先别着急,为啥爬取的少?因为爬取太快会触发微信的 频率控制(一旦触发,24小时才解封),你等着吧)。

    看到这里,你还没有放弃,那么看来你是真想要了。

    可以购买源码,因为源码是我自己开发方便我自己阅读用的,一般要买源码的都需要做一些修改和开发,视情况而定

  • 相关阅读:
    [MTG][介绍]企业消息处理平台
    [MYSQL][TIP]入门级命令
    [JWF][API] 显示当前所有用户信息
    五一去了五里河公园
    [UML][Feel]活动图的建立
    [JWF][DOC] COM Object Library Reference
    计算机网络操作系统历年试题
    embed标签的使用
    Android初体验D2
    ScrollJquery列表无间隙滚动
  • 原文地址:https://www.cnblogs.com/ailingfei/p/10885529.html
Copyright © 2011-2022 走看看