zoukankan      html  css  js  c++  java
  • [自然语言处理] 文本向量化技术

    前期准备

    使用文本向量化的前提是要对文章进行分词,分词可以参考前一篇文章。然后将分好的词进行向量化处理,以便计算机能够识别文本。常见的文本向量化技术有词频统计技术、TF-IDF技术等。

    词频统计技术

    词频统计技术是很直观的,文本被分词之后。 用每一个词作为维度key,有单词对应的位置为1,其他为0,向量长度和词典大小相同。然后给每个维度使用词频当作权值。词频统计技术默认出现频率越高的词权重越大。

    举例说明:

    原文:

          句子A:我喜欢看电视,不喜欢看电影。

          句子B:我不喜欢看电视,也不喜欢看电影。

    分词结果:

          句子A:我/喜欢//电视,不/喜欢//电影。

          句子B:我//喜欢//电视,也//喜欢//电影。

    列出维度:我,喜欢,看,电视,电影,不,也.

    统计词频:

          句子A:我 1,喜欢 2,看 2,电视 1,电影 1,不 1,也 0

          句子B:我 1,喜欢 2,看 2,电视 1,电影 1,不 2,也 1

    转换为向量:

          句子A[1, 2, 2, 1, 1, 1, 0]

          句子B[1, 2, 2, 1, 1, 2, 1]

    可以看出:词频统计技术直观、简单。但是有明显的缺陷:中文中有的词汇,如:“我”,“的”出现频率很高,因此会赋予较高的权值,但是这些词汇本身无意义。因此若要使用词频统计技术,必须要引入停用词将这些无意义的词汇进行过滤。

    TF-IDF技术

    TF-IDF技术就是为了克服词频统计技术的缺陷而产生的,它引入了“逆文档频率”概念,它衡量了一个词的常见程度,TF-IDF的假设是:如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出,那么它很可能就反映了这篇文章的特性,因此要提高它的权值。
    TF-IDF技术的需要维护一个语料库或文件集用于计算每个词的出现频率,频率越高的逆文档频率越小。语料库可以是整个铁路规章制度的集合,也可以是某个规章制度的全文。实践证明,TF-IDF在分词的时候,也需要剔除掉明显的停用词,这样效果会比较好。

    例如对于铁路规章制度而言,文本中“列车”一次的词频必然会非常高,但是在其语料库中出现的频率会非常高,因此其权重反而会降低。

  • 相关阅读:
    [HNOI2002]营业额统计
    HDU 1374
    HDU 3345
    HDU 2089
    Graham扫描法
    Codeforces 1144D Deduction Queries 并查集
    Codeforces 916E Jamie and Tree 线段树
    Codeforces 1167F Scalar Queries 树状数组
    Codeforces 1167E Range Deleting
    Codeforces 749E Inversions After Shuffle 树状数组 + 数学期望
  • 原文地址:https://www.cnblogs.com/chengyuanqi/p/7363909.html
Copyright © 2011-2022 走看看