zoukankan      html  css  js  c++  java
  • [NLP]文本表示

    一、文本表示

    文本表示:one-hot(单词),boolean representation(句子),count-based representation(句子)

    词典:[我,要,去,北京,上海,南京]

    One-hot:向量空间只有一个维度是1,其余都是0(缺点:高维度高稀疏)

    w1=我:[1,0,0,0,0,0]

    w2=要:[0,1,0,0,0,0]

    w3=去:[0,0,1,0,0,0]

    w4=北京:[0,0,0,1,0,0]

    缺点:矩阵稀疏;不能表示语义

    boolean representation

    s1=我 要 去 北京:[1,1,1,1,0,0]

    s2=我 要 去 上海:[1,1,1,0,1,0]

    s3=我 要 去 北京 啊 北京:[1,1,1,1,0,0]

    count-based representation

    我 要 去 北京:[1,1,1,1,0,0]

    我 要 去 北京 啊 北京:[1,1,1,2,0,0]

    二、文本距离

    欧式距离:

    余弦距离:

    三、词向量

    从第一节我们知道one-hot表示方法的缺陷,为解决这个问题,我们使用分布式表示方法(针对于单词的方法是词向量)。

    二者区别:100维的one-hot表示法最多可以表示100个单词,但是100维的分布式表示方法最多可以表示无数个单词。

    分布式表示:基本思想是将每个词表达成n维稠密、连续的实数向量。具有很强的特征表达能力。

    分布式表示方法的好处:

    ①能计算词与词之间的相似度,能对词进行可视化

    ②解决了one-hot的稀疏问题

     

    来源于贪心科技NLP讲解

  • 相关阅读:
    iterm2 配色修改
    让Dock自动 显示/隐藏 不再有延迟
    Xcode更改配色方案
    CocoaPods安装与使用
    CocoaPods安装和使用及问题:Setting up CocoaPods master repo
    CocoaPods安装和使用教程
    RubyGems 镜像
    iOS Mac系统下Ruby环境安装
    MAC机中安装RUBY环境
    Kibana+Logstash+Elasticsearch 日志查询系统
  • 原文地址:https://www.cnblogs.com/mj-selina/p/12853075.html
Copyright © 2011-2022 走看看