zoukankan      html  css  js  c++  java
  • 文档相似性匹配

    1.TF-IDF简介

    中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。

      TF-IDF(term frequency–inverse document frequency)是一种用于信息搜索和信息挖掘的常用加权技术。在搜索、文献分类和其他相关领域有广泛的应用。

      TF-IDF的主要思想是,如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。IDF反文档频率(Inverse Document Frequency)的主要思想是:如果包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。

      使用TF*IDF可以计算某个关键字在某篇文章里面的重要性,因而识别这篇文章的主要含义,实现计算机读懂文章的功能。

    2、Lucene评分

    System.out.println(searcher.explain(q, hits.id(i))); //打印评分细节

    3.Solr字段配置

    fields节点内定义具体的字段(类似数据库的字段),含有以下属性:

    • name:字段名
    • type:之前定义过的各种FieldType
    • indexed:是否被索引
    • stored:是否被存储(如果不需要存储相应字段值,尽量设为false)
    • multiValued:是否有多个值(对可能存在多值的字段尽量设置为true,避免建索引时抛出错误)

    4.Solr设置优化中文分词器

  • 相关阅读:
    第十一单元 beego验证
    第九单元 ORM
    第六单元 go操作redis
    第五单元 go操作mysql
    第四单元 参数配置
    springboot使用外置tomcat
    ⚡ 第二.三章顺序表与链表⚡
    c语言程序设计题 译密码
    翁恺 java进阶第一周作业
    Java 构造素数表的两种方法
  • 原文地址:https://www.cnblogs.com/jintianfan/p/3509438.html
Copyright © 2011-2022 走看看