zoukankan html css js c++ java

海量数据检索的利器

检索：解决的最大问题就是如何做到低延迟、快速匹配

　　采用局部敏感哈希：lsh

　　FaceBook的开源数据包：pysparnn

　　解决问题：稀疏数据的近邻搜索！

　　源代码网址:http://www.github.com/facebookresearch/pysparnn

测试源码：

"""
    test
"""
import os
import pysparnn.cluster_index as ci
from sklearn.feature_extraction.text import TfidfVectorizer
DIR_PATH = os.path.dirname(os.path.abspath(__file__))


data = [
    "你好 世界",
    "哦 世界 在这里",
    "和 他 一起 玩",
    "你 喜欢 玩 篮球",
]

tv = TfidfVectorizer()
tv.fit(data)
# 特征向量
features_vec = tv.transform(data)

# 建立搜索索引
cp = ci.MultiClusterIndex(features_vec, data)

# 搜索带有索引的
search_data = [
    "哦 在这里",
    "我 喜欢 玩 足球"
]

search_feature_vec = tv.transform(search_data)

# k是返回的个数，k_clusters代表聚类的个数
print(cp.search(search_feature_vec, k=1, k_clusters=2, return_distance=False))

返回结果：

希望能在实际的应用中帮到你！

查看全文

相关阅读:
2019年8月22日星期四（杂谈）
文件读写
 log4j
java 读写 xlsx
mongodb的增删改查
 mongodb安装与简单配置
 mondb的特性
 mongodb 的简单应用
 linux 学习1
linux 安装MySql

原文地址：https://www.cnblogs.com/demo-deng/p/12787261.html