zoukankan      html  css  js  c++  java
  • 自然语言处理2-3: 停用词过滤以及stemming操作

    对于nlp的应用,我们应该先把停用词以及出现频率很低的词汇给过滤掉

    在英文里,比如'the','and','their'都可以作为停用词来处理,但是,也要考虑自己的使用场景。例如,在中文中,“好”,“很好”这些词汇在有些应用中可以作为停用词过滤掉。但是如果是情感分析,这些词不能被过滤,也不能当作停用词处理掉哦亲。

    出现频率特别低的词汇对文本分析的作用不大,可以过滤掉。当停用词和出现频率低的词汇都过滤掉后,得到了一个词典库。

    对于词的标准化,有两种常用的技术,一种是stemming,另一种是lemmazation。

    对于stemming操作,就是将部分属于一个母词的不同词汇给统一成一个单词,这个单词不一定是英语中正常存在的单词。例如,可以将went,go,going统一成go,也可以将fly,flies统一成fli,这里fli就不是实际存在的词汇。对于stemming的实际使用,有一个著名的算法叫做PoterStemmer。其部分规则可以参见下图。可以看到,如果要实现这么一个算法

     光有程序员是不够的,还需要语言学家来制定这种标准化的规则。

    另一个lemmazation就不用过多了解了,它和stemming的区别就是,运用lemmazation标准化后的单词是英语中实际存在的词汇,而stemming标准化后的单词则不一定哦。反正这些规则也不需要过多了解,只要知道他们是用于标准化的以及会使用就ok了

  • 相关阅读:
    自动化基础知识
    第一章Google软件测试介绍
    《将博客搬至CSDN》
    二叉树的先序遍历和中序遍历分析(递归)
    java 部分快捷功能
    toString
    自增自减运算符剖析
    二进制数的直接表示
    编程中的&&和||
    npm 镜像地址设置
  • 原文地址:https://www.cnblogs.com/loubin/p/13697695.html
Copyright © 2011-2022 走看看