1.倒排索引
每一项包括一个属性值和具有该属性值得记录地址
不是由记录来确定属性值,而是由属性值确定记录。
某个单词出现的文档编号,列表,也可以存文档编号的差值
2.simHash算法
比较两篇文章相似度的算法 分词,hash,加权,合并,降维
每个特征向量(分词)赋值权值,重要程度
Hash(博客)=101011 哈希值为二进制数组成的n位签名
加权: W=Hash*weight 1为+1 0为-1
合并 降维
出现越少的词,权值越高
TF-IDF算法 特征提取得到权重
降维后得到签名指纹 海明距离 两个二进制异或后1的个数,3以内则相似
3.Bloom Filter
判断一个元素是否在集合中,空间高效的概率模型
4.MD5
512位,四分128位 abcd