zoukankan      html  css  js  c++  java
  • 9.5 NLP slide: 第二课 预处理 T42-T46 One-hot/tf-idf T46-T56 分词 T46-42

    预处理

      1. 去停用词,低频词

      2. Normalization:将不同时态的英文单词映射到同一个英文单词上 stemming / Lemazater

      stemming : 可能将 flies -> fli  生成无效单词

      Lemmazater: 保证生成有效单词  使用 knowledge base 

    Word Representation : 

      1) 图像 语音 文本 都需要转化成向量 ,one-hot 

        Boolean Vector / Count Vector 

      2) 然后对两句话的 one-hot向量,可以计算距离,也可以算余弦相似度  v1 * v2  / |v1|*|v2|

      3) tf-idf : 提取文本特征向量

        tfidf(w) = tf(d,w) * idf(w)   

        tf : 某文档D中W出现的次数, 这里W出现次数越多 tf-idf越大

        idf: 总文档中,包含单词W的文档数量 , w出现在越少的文档里,值越大

        总结:文档d中出现次数越多,总词库中包含w的文档越少,tf-idf越大

        

        应用: 从而可以对文本生成 tf-idf向量,向量长度 = |V|

        

    词向量:

      1) one-hot 编码的单个单词向量之间,是彼此垂直的,无法计算相似度 ; sparsity 稀疏性

      2) one-hot representation -> Distributed representation 分布式表示法   T59 

        比较 :   one-hot   representation        Distributed representation

                容量小          容量大,可以自定义维度          

        NLP核心: 如何计算该词向量 BERTS

      3) 词向量的训练:  

        将某领域语料库(corpus),放入模型,就能学出词向量 

        传统词向量模型:  SkipGram  Glove CBOW

        考虑上下文的模型: ELMO BERT XLNET

      4) 训练完后,可视化

        词向量领域 - 降维算法 T-SNE   其他领域 PCA

      5)词向量 -> 句向量:

        one-hot : 将词向量相加

        Distributed representation: 将词向量做平均 ,然后再在上面加一些 tf-idf向量作为特征

          比如一个  4维向量,总长度为 4+|V|

      6)训练词向量的思想: 通过上下文单词的词向量 -> 未知单词的词向量 CBOW

    Skip-Gram: T67

      例如   _ _ working _ _ project, it is interesting

      1)最终目标是未知单词的词向量   , 方法是最大化 概率乘积 T68

      2) window_size

      3)

      4) Fast-Text  subword model with skipGram: 使用了n-gram  T 74 

  • 相关阅读:
    Retina屏的移动设备如何实现真正1px的线
    使用Karma、Mocha实现vue单元测试
    ios中非ARC项目中引用ARC文件
    ios中Pldatabase的用法(4)
    ios中Pldatabase的用法(3)
    ios中Pldatabase的用法(2)
    ios中修改数字键盘
    asyncsocket的用法
    ios中Pldatabase的用法
    ios中打包
  • 原文地址:https://www.cnblogs.com/ChevisZhang/p/13624108.html
Copyright © 2011-2022 走看看