【NLP_Stanford课堂】词形规范化 - 走看看

zoukankan html css js c++ java

【NLP_Stanford课堂】词形规范化
一、为什么要规范化

在做信息检索的时候，一般都是精确匹配，如果不做规范化，难以做查询，比如用U.S.A去检索文本，结果文本里实际上存的是USA，那么实际上应该能查到的结果查不到了。

所以需要对所有内容做规范化，以实现检索的有效性。

二、怎么规范化
1. 大小写转换
  
  在信息检索的应用上，通常将大写字母转换成小写字母，因为用户更倾向于使用小写字母
  
  例外情况：当大写字母出现在句子的中间的时候，一般有特殊意义，不能转换，比如是某个机构的缩写
  
  对于情感分析、机器翻译或者信息抽取，大写字母一般都非常重要，不能转换成小写，比如US和us
2. 词形还原
  
  减少基本形式的不同形态，比如：am, are, is ->be ; car, cars car's -> car
  
  重点：找到词典中的正确的中心词，这对机器翻译来说尤为重要
  
  形态学：找到词素（组成单词的有意义的最小单元），词素主要由以下两种组成
  
  词根：核心的意义的承载单元
  
  词缀：词根的附着片段，通常有语法功能
  
  Steming：在信息检索中，将单词粗切掉词缀，只保留词根。
  
  英语中最通用的算法：Porter's 算法（使用简单的替换规则）
  
  在去掉(*v*)ing时只有当(*v*)中含有元音时才去掉
查看全文

相关阅读:
Linux下的”锁“事儿
 拿得起，放得下，想得开
 关于TCP协议握手的那些事儿
 悟
 C++中的RTTI机制解析
 C/C++中产生随机数
 数据库-事务和锁
 JS 数组Array常用方法
 C# 压缩 SharpZipLib
正则表达式学习3-负向零宽断言

原文地址：https://www.cnblogs.com/a-present/p/9387926.html

Copyright © 2011-2022 走看看