zoukankan      html  css  js  c++  java
  • 【NLP_Stanford课堂】词形规范化

    一、为什么要规范化

    在做信息检索的时候,一般都是精确匹配,如果不做规范化,难以做查询,比如用U.S.A去检索文本,结果文本里实际上存的是USA,那么实际上应该能查到的结果查不到了。

    所以需要对所有内容做规范化,以实现检索的有效性。

    二、怎么规范化

    1. 大小写转换
      1. 在信息检索的应用上,通常将大写字母转换成小写字母,因为用户更倾向于使用小写字母
      2. 例外情况:当大写字母出现在句子的中间的时候,一般有特殊意义,不能转换,比如是某个机构的缩写
      3. 对于情感分析、机器翻译或者信息抽取,大写字母一般都非常重要,不能转换成小写,比如US和us
    2. 词形还原
      1. 减少基本形式的不同形态,比如:am, are, is ->be  ;  car, cars car's -> car
      2. 重点:找到词典中的正确的中心词,这对机器翻译来说尤为重要
      3. 形态学:找到词素(组成单词的有意义的最小单元),词素主要由以下两种组成
        1. 词根:核心的意义的承载单元
        2. 词缀:词根的附着片段,通常有语法功能
      4. Steming:在信息检索中,将单词粗切掉词缀,只保留词根。
        1. 英语中最通用的算法:Porter's 算法(使用简单的替换规则)
        2. 在去掉(*v*)ing时只有当(*v*)中含有元音时才去掉



  • 相关阅读:
    Linux下的”锁“事儿
    拿得起,放得下,想得开
    关于TCP协议握手的那些事儿

    C++中的RTTI机制解析
    C/C++中产生随机数
    数据库-事务和锁
    JS 数组Array常用方法
    C# 压缩 SharpZipLib
    正则表达式学习3-负向零宽断言
  • 原文地址:https://www.cnblogs.com/a-present/p/9387926.html
Copyright © 2011-2022 走看看