zoukankan      html  css  js  c++  java
  • Information retrieval (IR class2)

    1.  解析文档一般要分析哪些方面?

      - 首先分析文档的格式,是docx,html,xml,pdf...

      - 其次分析文档的语言,是英语,汉语,日语,德语...

      - 使用的什么字符集,ASCII编码,或者是UFT-8,或者....

    2.  什么是Tokenization Process?

      对于汉字,需要“分词”,比如把:“我们” ->  “我” “们”

      而英文中,这个操作很简单,仅仅是空格而已:we are student -> "we" "are" "student". 然而,有时也会出现问题,比如“don't" 该如何分词??

    3.  什么是stopword?

      英文里,常出现的词语,类似 you, I, and, a, 之类的

    4.  什么是Normalization ?  

      把所有词还原成一种形式。 包括 stemming 和 lemmatization 。

      stemming(词干):去掉后缀(suffix),例如,police ,  policy , police  可以变成同一个 stem : polic

      lemmatization(此行还原) 例如,复数 -> 单数,动词过去式/单三式 -> 原形之类的。

    5.  Porter's algorithm ?

       用来还原词干的一个算法,一个经典的规则:

          - sses     ->     ss

          - ies       ->       i

          - ational  ->     ate

          - tional    ->    tion 

          其实,正规化有很多方法,也有很多标准,stemming和 lemmatization也有很多不同的实现方法与规则。

    6.   如何加速posting list的查找? 

       skip pointer ,工作机制不太明白,继续学习中

    8.   遇到词组的情况怎么解决?

      答:目前主要有三种解决方法: 1⃣️二词法:就是把两个字组合作为一个词,例如,stanford university作为一个词,进行inverted index。 如果是多个词的词组,就用AND连接biword。问题:列出所有的两分词,不太可能,耗费的存储空间太大。空间复杂度太高

                    2⃣️位置索引法:在inverted index的基础上,不仅记录文档,还另外记录该词出现在文档中的哪个位置。然后将starnford和university进行AND操作后,对比出现在同一个文档中的位置,是否相邻,如果是,则判断1,反之为0。 缺点是匹配耗费的时间太多,时间复杂度太高

                    3⃣️ 二分-位置索引法:将两种方法结合起来。没有细究。

    9.  遇到通配符(wild-card queries)的情况怎么解决?

       比如:用户想要输入 rotate, 但是不知道怎么拼写,就输入了 rote* 或者 *tate

       三种方法:1⃣️。 使用树的方法: 对于后面省略的,使用B+树的查找,匹配后缀。 对于前面省略的,使用树的翻顺序,匹配前缀

            2⃣️。 使用permuterm index(我称之为排列索引):  例子详见参考:https://people.eng.unimelb.edu.au/tcohn/comp90042/l3.pdf

             例如 ro*te  ->     te $ ro  : $ 意思是 以ro为开头,以te为结尾

              3⃣️。 使用n-gram index . 

    10. 什么是 POST (part of speech tage)

      翻译成中文,简单来说就是, 词性/词类标注。

      例如, I played basketball in the park. 

         noun :   basketball, park.

           verb :   play 

                  在nlp处理时, I , in, the 都可以直接归类于 “stop word”里面。 

     以及,为了方便大家记住常用的英文缩写,我把参考链接粘贴到这里(参考: https://zhidao.baidu.com/question/170228690)。 

        Abbr (abbreviation) : 省略语

        ie (which is to say)   : 即

        etc

        prep  介词

        conj 连接词

    11. 另外, 对于POST,有很多专业术语,可以参考https://cs.nyu.edu/grishman/jet/guide/PennPOS.html

            CC(coordinating conjunction ): 衔接连词

        CD(cardinal number): 基数词

        PRP (personal pronoun):代词

        VBZ(Verb,3drperson singular present):动词单三式

        NNS (noun,plural):名词复数

        IN (prepostion or subordinating conjunction):介词或从属连词

        DT(determiner):限定词

        NN(noun,singular or mass):名词单数

  • 相关阅读:
    20100720 14:14 转:BW十日谈之标准数据源
    BW会计年度期间转换出错
    SQL Server 2005 Logon Triggers 详细介绍
    作业输出文档维护
    windows 系统监视器 以及建议阀值
    linkedserver 的使用
    DAC 连接数据库需要做些什么
    SQL Server 2008新特性 Merge 详细见联机手册
    【20110406】提高数据库可用性需要注意的问题
    索引迁移
  • 原文地址:https://www.cnblogs.com/yyagrt/p/11507215.html
Copyright © 2011-2022 走看看