zoukankan      html  css  js  c++  java
  • [自然语言处理] 文本向量化技术

    前期准备

    使用文本向量化的前提是要对文章进行分词,分词可以参考前一篇文章。然后将分好的词进行向量化处理,以便计算机能够识别文本。常见的文本向量化技术有词频统计技术、TF-IDF技术等。

    词频统计技术

    词频统计技术是很直观的,文本被分词之后。 用每一个词作为维度key,有单词对应的位置为1,其他为0,向量长度和词典大小相同。然后给每个维度使用词频当作权值。词频统计技术默认出现频率越高的词权重越大。

    举例说明:

    原文:

          句子A:我喜欢看电视,不喜欢看电影。

          句子B:我不喜欢看电视,也不喜欢看电影。

    分词结果:

          句子A:我/喜欢//电视,不/喜欢//电影。

          句子B:我//喜欢//电视,也//喜欢//电影。

    列出维度:我,喜欢,看,电视,电影,不,也.

    统计词频:

          句子A:我 1,喜欢 2,看 2,电视 1,电影 1,不 1,也 0

          句子B:我 1,喜欢 2,看 2,电视 1,电影 1,不 2,也 1

    转换为向量:

          句子A[1, 2, 2, 1, 1, 1, 0]

          句子B[1, 2, 2, 1, 1, 2, 1]

    可以看出:词频统计技术直观、简单。但是有明显的缺陷:中文中有的词汇,如:“我”,“的”出现频率很高,因此会赋予较高的权值,但是这些词汇本身无意义。因此若要使用词频统计技术,必须要引入停用词将这些无意义的词汇进行过滤。

    TF-IDF技术

    TF-IDF技术就是为了克服词频统计技术的缺陷而产生的,它引入了“逆文档频率”概念,它衡量了一个词的常见程度,TF-IDF的假设是:如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出,那么它很可能就反映了这篇文章的特性,因此要提高它的权值。
    TF-IDF技术的需要维护一个语料库或文件集用于计算每个词的出现频率,频率越高的逆文档频率越小。语料库可以是整个铁路规章制度的集合,也可以是某个规章制度的全文。实践证明,TF-IDF在分词的时候,也需要剔除掉明显的停用词,这样效果会比较好。

    例如对于铁路规章制度而言,文本中“列车”一次的词频必然会非常高,但是在其语料库中出现的频率会非常高,因此其权重反而会降低。

  • 相关阅读:
    GitLab基本用法
    SSH免密登录详解
    一文搞懂GitLab安装部署及服务配置
    初识:LevelDB
    Jenkins安装与Gitlab项目部署详解
    CentOS7的安装和配置
    C/C++语言的学习方向
    C语言atoi函数
    C语言整数的取值范围
    C语言scanf函数
  • 原文地址:https://www.cnblogs.com/chengyuanqi/p/7363909.html
Copyright © 2011-2022 走看看