zoukankan      html  css  js  c++  java
  • n-gram

    n-gram 中文名叫 N元语法,是把 n个连续的词作为子序列。

    N元语法中的参数n,一般取2到5之间的值就可以,权值越大,效果越好,但计算量越大。

    举例

    当n取3时,我们从下面引文中抽取前几个N元语法。Always look on the bright side of life.

    第一个N元语法(三元)是Always look on,第二个是look on the,第三个是on the bright。

    主要用途

    1. 基于单词的N元语法被用于文本主题模型

    2. 基于字符的N元语法被用于作者归属问题

    3. 基于字符的N元语法被用于识别拼写错误

    优点

    N元语法的计算方法与单个词计算方法相同,但比起单个词,N元语法能更好的描述文档,它提取了词语的上下文信息,有助于理解词语用法和词语分布。

    缺点

    词向量矩阵变得更加稀疏

    N元语法是连续几个词,这种情况出现的概率肯定比单个词低,而且这相当于是个组合,其长度肯定比单个词的词向量要从,所有矩阵会更稀疏

    所以N元语法不太适合短文章,在长文章中比较有效

    这是我在深度学习自然语言处理的博客 https://www.cnblogs.com/yanshw/p/10529394.html,单词预测,里面也有对n-gram的介绍

  • 相关阅读:
    hortonworks
    使用Ambari快速部署Hadoop大数据环境
    js模板引擎
    Scala中的语言特性是如何实现的2
    IOS多线程编程一:概述
    Struts框架
    总体设计
    算法介绍
    社区与关怀
    从C#的Singleton设计模式
  • 原文地址:https://www.cnblogs.com/yanshw/p/10647157.html
Copyright © 2011-2022 走看看