zoukankan      html  css  js  c++  java
  • 索引

    《深入搜索引擎》
    在索引创建前通常都需要进行适当的转换,在这本书中提到三种转换方式:
    1、大小写折叠,这种转换将所有大写字母转化成小写(反之亦然),采用这种转换是为了在数据库查询时不被大小写问题干扰,但是也会有一些弊端。如:ACT,在澳大利亚代表了澳大利亚首都领地(Australian Capital Territory)。ACT和动词act可以说是大相径庭


    2、将单词规约到词根,也就是说,去掉单词所有的后缀和其它变体。例如:compression、compressed、compressor都有共同的词根compress。它能够保证即便文档中的词汇形式有所差异,但依然能被检索出来。如果典型术语的创建过程同时使用了词根化操作,而且查询词也做了词根化操作,那么在用“data And compression” 这样的查询检索出的文档中可能包含这样的短语如“compressed data is” 和 “to compress the data”。虽然很难否认这类转化的有用性,但是这种转换事实上已经被广泛采用了


    3、停用词转换。停用词被注定为非常普遍的词,如the、a、it。在不同的行业中停用词也有所不同,如:在线计算机手册中option和usage不应该被索引,在金融档案中dollar和stock甚至Dow和Johns都应作为停用词,有时会应用一个自动推到停用词的方法


    4、进一步的转换还有同义词转换。例如:fast和rapid能够被准确的识别出来,并且继而把他们都用同一个典型术语来索引

  • 相关阅读:
    重新开发四则运算器
    结对编程
    四则运算 个人项目整理
    DAY 012--dict(增、删、改、查、合并)
    001--面向对象 V.S 面向过程
    DAY 011--Tuple使用方法汇总
    001--二分法(Binary search)
    DAY 006--查找某个值是否在列表中(二分法)
    DAY 009--str(替换三种方法)
    DAY 008--str(常见判断条件)
  • 原文地址:https://www.cnblogs.com/zhangjianzhi/p/3820866.html
Copyright © 2011-2022 走看看