海量数据处理 - 走看看

zoukankan html css js c++ java

海量数据处理

1.倒排索引

　　每一项包括一个属性值和具有该属性值得记录地址

　　不是由记录来确定属性值，而是由属性值确定记录。

　　某个单词出现的文档编号，列表，也可以存文档编号的差值

2.simHash算法

　　比较两篇文章相似度的算法分词，hash，加权，合并，降维

　　每个特征向量（分词）赋值权值，重要程度

　　Hash(博客)=101011 哈希值为二进制数组成的n位签名

　　加权： W=Hash*weight 1为+1 0为-1

　　合并降维

　　出现越少的词，权值越高

　　TF-IDF算法特征提取得到权重

　　降维后得到签名指纹海明距离两个二进制异或后1的个数，3以内则相似

3.Bloom Filter

　　判断一个元素是否在集合中，空间高效的概率模型

4.MD5

　　512位，四分128位 abcd

　　

　　

查看全文

相关阅读:
SQL 增删字段
 html5.js 让所有IE支持HTML5
Tomcat Xms Xmx PermSize MaxPermSize 区别及 java.lang.OutOfMemoryError: PermGen space 解决
 Easyui 判断某个Div 里的表单项是否验证通过.
基于restful注解(spring4.0.2整合flex+blazeds＋spring-mvc)<一>
swfupload js中 file 对象的属性
 JAVA , TOMCAT , AXIS2 环境变量配置
 Java synchronized详解
 Jackson 练习(一)
【树莓派】树莓派网络配置：静态IP、无线网络、服务等

原文地址：https://www.cnblogs.com/BetterThanEver_Victor/p/10054573.html

Copyright © 2011-2022 走看看