zoukankan      html  css  js  c++  java
  • 海量数据处理

    1.倒排索引

      每一项包括一个属性值和具有该属性值得记录地址

      不是由记录来确定属性值,而是由属性值确定记录。

      某个单词出现的文档编号,列表,也可以存文档编号的差值

    2.simHash算法

      比较两篇文章相似度的算法  分词,hash,加权,合并,降维

      每个特征向量(分词)赋值权值,重要程度

      Hash(博客)=101011    哈希值为二进制数组成的n位签名

      加权:  W=Hash*weight    1为+1   0为-1

      合并     降维

      出现越少的词,权值越高

      TF-IDF算法   特征提取得到权重

      降维后得到签名指纹    海明距离   两个二进制异或后1的个数,3以内则相似

    3.Bloom Filter

      判断一个元素是否在集合中,空间高效的概率模型

    4.MD5

      512位,四分128位   abcd

      

      

  • 相关阅读:
    文件上传案例_Socket_测试
    Linux的小整理(入门)
    full stack 第一天
    基础考题 试题
    shell语法
    网络管理
    图像类
    定时储存
    网络管理
    磁盘管理
  • 原文地址:https://www.cnblogs.com/BetterThanEver_Victor/p/10054573.html
Copyright © 2011-2022 走看看