zoukankan      html  css  js  c++  java
  • 文本表示模型

    词袋模型、TF-IDF

    词袋模型(BOW,Bag of Word),整段文本为一个向量,向量每一维度表示一个单词,每个数值对应这个词的重要程度。忽略顺序信息。

    最简单的词袋模型就是统计每个词出现的次数,作为特征值。

    常用 TF-IDF(term frequency–inverse document frequency)计算词袋模型的向量。

    TF 是词频,TF(t, d) 表示单词 t 在文档 d 中出现的频率。IDF(t) 是逆文档频率,衡量单词 t 对语义的重要程度。包含 t 的文章数越多,说明它越通用,对语义贡献小。

    TF-IDF(t, d) = TF(t, d) × IDF(t)

     

    词嵌入、word2vec

    词嵌入(word embedding)为每个单词构造一组特征,语义近似的词汇被映射为相邻的数据点。

    常用 word2vec 构成词向量模型,有 CBOW 和 Skip-Gram 两种浅层神经网络模型。

     

    CBOW 模型通过上下文预测当前词的概率,Skip-Gram 通过当前词预测上下文词的概率。

    在两个模型中,输入的单词使用 one-hot 编码,假设有n个单词,输入的维度就是 n。

    隐藏层中使用k个神经元,输入层到隐含层的权重矩阵 w 的维度为 n×k。训练完,选取 w 作为n个词的k维向量表示,最终得到的词向量维度是 k。

    基于哈夫曼树的 CBOW 模型:CBOW 的输出层对应一颗 Huffman 树,是根据词频建立的,叶子结点为语料库中的词。非叶子结点相当于一个 lr,二分类决策输出1或0,分别代表分到左边或者是右边,lr的目标就让走正确条路径的可能性最大。

     

    主题模型:pLSA、LDA

    再说。

  • 相关阅读:
    重载
    两数之和
    求二叉树层序遍历
    最小的K的个数
    二分查找
    实现二叉树先序,中序,后序
    判断 链表中是否有环
    设计LRU缓存结构
    排序
    反转链条
  • 原文地址:https://www.cnblogs.com/sumuyi/p/12793359.html
Copyright © 2011-2022 走看看