文档相似性匹配

zoukankan html css js c++ java

文档相似性匹配
1.TF-IDF简介

中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础，对于输入的一段中文，成功的进行中文分词，可以达到电脑自动识别语句含义的效果。

　　TF-IDF（term frequency–inverse document frequency）是一种用于信息搜索和信息挖掘的常用加权技术。在搜索、文献分类和其他相关领域有广泛的应用。

　　TF-IDF的主要思想是，如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。IDF反文档频率(Inverse Document Frequency)的主要思想是：如果包含词条的文档越少，IDF越大，则说明词条具有很好的类别区分能力。

　　使用TF*IDF可以计算某个关键字在某篇文章里面的重要性，因而识别这篇文章的主要含义，实现计算机读懂文章的功能。

2、Lucene评分

System.out.println(searcher.explain(q, hits.id(i))); //打印评分细节

3.Solr字段配置

fields节点内定义具体的字段（类似数据库的字段），含有以下属性：
- name：字段名
- type：之前定义过的各种FieldType
- indexed：是否被索引
- stored：是否被存储（如果不需要存储相应字段值，尽量设为false）
- multiValued：是否有多个值（对可能存在多值的字段尽量设置为true，避免建索引时抛出错误）
4.Solr设置优化中文分词器
查看全文

相关阅读:
python 开发中的常用功能
 python 栈&队列&列表的区别
 python 内置函数简介及其作用
 python 正则表达式详解
 python scrapy
python 文件操作
 python 爬虫实例
 浅谈tcp 与udp
php正则匹配video 中或者img的宽度和高度。
android技术积累:开发规范

原文地址：https://www.cnblogs.com/jintianfan/p/3509438.html