zoukankan      html  css  js  c++  java
  • 小米范工具系列之十四:小米范网站批量爬虫工具

    小米范网站批量爬虫工具,是一款针对大量网站进行快速爬取的工具,爬取的URL可进一步调用wvs、sqlmap、brutexss等工具进行检测。

    工具使用方法:

    1、点击新建任务,输入要检测的URL。

    2、设置子域名白名单,属于白名单域名的URL则自动保留并进行抓取。

    2、设置并发站点、并发线程等参数,点击开始即可。

    工具的工作流程:

    假设我们新建任务,放入100个URL作为爬虫的起始URL,那么具体的爬取过程如下:

    1、  针对这100个URL,按照是否同源进行合并,同源的URL则放入一个目标,并将这些URL作为这个源的起始URL。

    2、  针对每个目标进行爬取(默认并发5个目标),针对每个目标的起始URL采用浏览器点击抓包(默认每个目标最多开5个浏览器)+HTML解析的方式获取URL,浏览器点击在后台运行,没有界面,这里的浏览器点只是在点击后将发出去的请求URL记录,但并不真正发出去请求。

    3、  将前两步收集到的URL作为种子,进行传统的爬取,这里的爬取主要采用了webmagic框架,并对框架本身做了一点修改。另外每一个页面下载之前会进行爬取URL黑名单匹配,匹配到黑名单则跳过,下载到的每个页面提取出来的URL会进行子域名白名单匹配,匹配到白名单则会放入爬取队列。

    针对爬到的URL可直接右键使用sqlmap、brutexss、panoptic、wvs进行安全检测,目前还在考虑再加入一些其他的检测工具。

    此外也提供了目录扫描功能,在左侧树形结构的任意节点右键目录扫描会对当前选中节点所在的路径进行目录扫描。

    下载地址:http://pan.baidu.com/s/1pLjaQKF  文件名 XmfSpider

  • 相关阅读:
    c++ 虚继承与继承的差异 (转)
    主题:PageRank解释
    (转)开源爬虫larbin分析
    Django随笔
    原生爬虫小Demo
    SVN
    Python的正则表达式与JSON
    类库 方法 模块等
    笔记
    自动补全Typeahead
  • 原文地址:https://www.cnblogs.com/fsqsec/p/5840364.html
Copyright © 2011-2022 走看看