zoukankan      html  css  js  c++  java
  • SharePoint Search 分词 金大昊(jindahao)

    现象:

    用fast search搜索的时候发现如下现象

    使用“土地工农费用、征地费用、地籍费用管理业务”无法搜索到结果。容易使对搜索结果产生怀疑,明明在数据库总有这样的数据呀。

    发现:

    使用“土地 工农 费用 征地  费用 管理 业务”搜索可以搜索到结果。其实这样就可以很容易看出来,原理是分词的原因。分词的好坏决定了搜索的质量。

    在 FAST Search Server 2010 for SharePoint 中,您可以使用两种方法影响默认词汇切分:语言词汇切分 子字符串词汇切分

    语言词汇切分

    语言词汇切分表示根据特定语言规则将一个文本字符串拆分为单个标记。对于东亚语言,可通过创建自定义词典来影响词汇切分。如果 FAST Search Server 2010 for SharePoint 提供的系统词典中缺少单词(例如技术术语、人名或公司名称),或者默认词汇切分不正确,则可以向自定义词典中添加单词以确保根据需要对它们进行标记。

    子字符串词汇切分

    对于检索次数非常重要的应用程序,子字符串词汇切分尤其有用。子字符串词汇切分会移除文本中的所有空格,然后将其拆分为双字母组(与两个字符的长标记重叠)。例如“アメリカ” (美国) 可拆分为: ア,アメ,メリ,リカ (a、ame、meri、ca)。

    子字符串词汇切分会增加检索次数,但会降低精确度并显著增加索引的大小。如果减小索引大小比增加检索次数更为重要,则不要使用子字符串词汇切分。为尽可能不降低精确度,可以结合使用子字符串词汇切分和语言词汇切分。

     参考:http://technet.microsoft.com/zh-cn/library/gg130819.aspx

    ------------------------------------------------------------------------------------------------------------------------

     更新一下:

     1. 使用“土地工农费用、征地费用、地籍费用管理业务”也是可以的查询的。

     2. 但是“有限公司”不能查询出结果,改成“有限 公司”才可以。

    努力过就不会后悔

  • 相关阅读:
    JDBC数据库程序连接MySQL
    java中image显示图片,随上下左右键移动
    java匿名类关闭窗口
    一个通用的SQL客户程序
    我的第一个JavaApplet程序
    Java编译错误“No enclosing instance of type AA is accessible. Must qualify the allocation with an enclosing instance of type SimpleTh
    Java MessagePanel
    线程通信,生产者消费者问题(Java)
    Java程序显示正在运行的时钟(timer类)
    百度star2012初赛第一场的题目
  • 原文地址:https://www.cnblogs.com/jindahao/p/2419515.html
Copyright © 2011-2022 走看看