zoukankan      html  css  js  c++  java
  • 9.5 NLP slide: 第二课 预处理 T42-T46 One-hot/tf-idf T46-T56 分词 T46-42

    预处理

      1. 去停用词,低频词

      2. Normalization:将不同时态的英文单词映射到同一个英文单词上 stemming / Lemazater

      stemming : 可能将 flies -> fli  生成无效单词

      Lemmazater: 保证生成有效单词  使用 knowledge base 

    Word Representation : 

      1) 图像 语音 文本 都需要转化成向量 ,one-hot 

        Boolean Vector / Count Vector 

      2) 然后对两句话的 one-hot向量,可以计算距离,也可以算余弦相似度  v1 * v2  / |v1|*|v2|

      3) tf-idf : 提取文本特征向量

        tfidf(w) = tf(d,w) * idf(w)   

        tf : 某文档D中W出现的次数, 这里W出现次数越多 tf-idf越大

        idf: 总文档中,包含单词W的文档数量 , w出现在越少的文档里,值越大

        总结:文档d中出现次数越多,总词库中包含w的文档越少,tf-idf越大

        

        应用: 从而可以对文本生成 tf-idf向量,向量长度 = |V|

        

    词向量:

      1) one-hot 编码的单个单词向量之间,是彼此垂直的,无法计算相似度 ; sparsity 稀疏性

      2) one-hot representation -> Distributed representation 分布式表示法   T59 

        比较 :   one-hot   representation        Distributed representation

                容量小          容量大,可以自定义维度          

        NLP核心: 如何计算该词向量 BERTS

      3) 词向量的训练:  

        将某领域语料库(corpus),放入模型,就能学出词向量 

        传统词向量模型:  SkipGram  Glove CBOW

        考虑上下文的模型: ELMO BERT XLNET

      4) 训练完后,可视化

        词向量领域 - 降维算法 T-SNE   其他领域 PCA

      5)词向量 -> 句向量:

        one-hot : 将词向量相加

        Distributed representation: 将词向量做平均 ,然后再在上面加一些 tf-idf向量作为特征

          比如一个  4维向量,总长度为 4+|V|

      6)训练词向量的思想: 通过上下文单词的词向量 -> 未知单词的词向量 CBOW

    Skip-Gram: T67

      例如   _ _ working _ _ project, it is interesting

      1)最终目标是未知单词的词向量   , 方法是最大化 概率乘积 T68

      2) window_size

      3)

      4) Fast-Text  subword model with skipGram: 使用了n-gram  T 74 

  • 相关阅读:
    Flash实现图片上传(实现浏览器端图片预览)
    Visual Studio自定义模板参数说明
    JS & jQuery上下无缝滚动应用(单行或多行)
    批处理bat文件得到当前绝对路径、盘符等
    JavaScript判断IE的最短写法
    [转载]替代Apache和IIS的轻量级网络服务器盘点
    unable to start debugging on the web server. An authentication error occurred while communicating with the web server.
    开放的云平台
    [转载]15个最优秀的免费开源电子商务交易平台
    MS Sql Server导出表结构
  • 原文地址:https://www.cnblogs.com/ChevisZhang/p/13624108.html
Copyright © 2011-2022 走看看