zoukankan      html  css  js  c++  java
  • 高效词频分析

    由于密码泄露越来越普遍,使得各类“密码分析”工具越来越多。比如最近很火的Pipal,由ruby编写的一款程序,可以分析出密码频率TOP N。但实际使用中发现效率较低。

    实际上通过简单的bash命令就可以实现上述的功能:

    cat password.txt | sort | uniq -c | sort -k1,1nr | head -10
    

    提取password词频TOP10的密码

    time cat pass.txt | sort | uniq -c | sort -k1,1nr | head -10 > result.txt
    保存提取结果并记录所消耗时间

    由于sort是C语言编写,效率远高于Pipal。在数据量较大的词频统计时,差距尤其明显。
    实际测试 在虚拟机中两亿条数据获取top 10000 大概50分钟左右。

  • 相关阅读:
    XML 的学习笔记3
    XML 的学习笔记2
    XML 的学习笔记1
    Tomcat 学习笔记2
    Tomcat 学习笔记1
    sol
    sol
    0、安装Ionic2
    ionic2 目录
    6、Angular Route 路由
  • 原文地址:https://www.cnblogs.com/dongchi/p/5424792.html
Copyright © 2011-2022 走看看