zoukankan      html  css  js  c++  java
  • 海量数据处理

    1.倒排索引

      每一项包括一个属性值和具有该属性值得记录地址

      不是由记录来确定属性值,而是由属性值确定记录。

      某个单词出现的文档编号,列表,也可以存文档编号的差值

    2.simHash算法

      比较两篇文章相似度的算法  分词,hash,加权,合并,降维

      每个特征向量(分词)赋值权值,重要程度

      Hash(博客)=101011    哈希值为二进制数组成的n位签名

      加权:  W=Hash*weight    1为+1   0为-1

      合并     降维

      出现越少的词,权值越高

      TF-IDF算法   特征提取得到权重

      降维后得到签名指纹    海明距离   两个二进制异或后1的个数,3以内则相似

    3.Bloom Filter

      判断一个元素是否在集合中,空间高效的概率模型

    4.MD5

      512位,四分128位   abcd

      

      

  • 相关阅读:
    Oracle 基础系列之1.3 用户管理
    Oracle 系统常用命令
    Gogs安装
    centos7 Minimal安装没有ifconfig
    centos 上安装nodejs v8.0.0
    Linux 学习笔记
    使用 weinre 远程调试移动端页面
    Linux tree命令
    innodb分区
    Innodb表空间
  • 原文地址:https://www.cnblogs.com/BetterThanEver_Victor/p/10054573.html
Copyright © 2011-2022 走看看