zoukankan      html  css  js  c++  java
  • 使用Python批量下载CNZZ的关键词数据

    在前面的文章中,我们已经说过,通过更改cookie可以突破CNZZ的最多90条关键词数据下载。但是突破不了的是CNZZ最多支持下载的数据是1000条,而最小维度是天。

    那么,我们只需要按天下载数据,一天下载1000条数据。即可下载接近全部的数据。

    做SEO的人知道,关键词数据非常重要,而获取关键词数据的来源,除了统计工具统计的,几乎没有什么好的途径。

    别人的站数据很难拿到,当然也可以利用爬虫爬取,但是你爬取的同时别人已经发了。

    百度官方和Google的推荐关键词是整个行业的不一定利于你所在的团队。

    而其他的工具相对于搜索引擎提供的数据更不靠谱。

    所以CNZZ,百度统计这种渠道的数据是必须拿到的。

    这里我不展示代码,只说原理。

    首先,通过伪装session,利用chromedrive之类的框架,让你的爬虫可以正常访问CNZZ。

    然后写个多线程的爬虫,批量下载:
    https://web.umeng.com/main.php?c=traf&a=keyword&ajax=module=report&siteid=xxx&st=xxx&et=xxx&tabIndex=1&keywordCondType=&keyword=&itemName=&itemNameType=&itemVal=&engin=all&orderBy=pv&orderType=-1&currentPage=1&pageType=1000&downloadType=xls

    批量下载的链接,通过excel或者其他的工具批量生成这种类型的下载链接,更改当中的siteid和starttime,stoptime即可下载你想要的数据。

  • 相关阅读:
    Weblogic 漏洞利用总结
    CVE-2017-9993 FFMpeg漏洞利用
    tomcat漏洞利用总结
    移动渗透测试杂记
    CORS漏洞利用检测和利用方式
    discuz mlv3.x命令注入
    DNS域传输漏洞利用总结
    redis未授权漏洞和主从复制rce漏洞利用
    CVE-2016-3714-ImageMagick 漏洞利用
    JAVA WEB EL表达式注入
  • 原文地址:https://www.cnblogs.com/huxiaoyi/p/9917369.html
Copyright © 2011-2022 走看看