Dependency-Based Word Embeddings（基于依存的词向量）

zoukankan html css js c++ java

Dependency-Based Word Embeddings（基于依存的词向量）
最近要开始读论文了，其实自己读论文的能力挺不怎么样的，并且读过就忘记，这实在是让人很不爽的事情。自己分析记不住的原因可以有以下几点：
- 读论文时理解就不深刻，有时候就是一知半解的
- 读完之后没有总结，即没有自己概括这篇论文的过程，所以文中一知半解的过程还是忽略了，并且以后再回顾的时候，这篇论文对自己来说就像新的论文一样，还是一样懵。
所以，我决定对读的每一篇论文都做一个总结，并发表在博客上。如果有人能强忍着“这人写了些什么玩意”的想法看完了我的文章，还请不吝赐教，指出我的错误。

作为开始总结的第一篇论文，我选取的论文并不新，是一篇发表在2014年ACL（Meeting of the Association for Computational Linguistics）的短文。作者是Omer Levy和 Yoav Goldberg，Bar-llan University（以色列的巴伊兰大学）。

下面开始步入正文。
文章在Abstract部分就交代了，他们的工作就是generalize（泛化）了Mikolov提出的skip-gram model + negative sampling。skip-gram模型利用的context（上下文）就是其前面几个词和后面几个词，而本文利用的context却可以是任意的。虽然文章提的是任意的上下文，但是其实文章主要说的还是基于依存的context。

introduction正常我应该只看最后一段的，但是今天兴致不错，于是都看了。但是还是有挺多工作没看懂。文章最开始以例子“pizza”和“hamburger”说明了词表示（word representation）的重要性，引出了对于获得词表示的一种常用的模式-distributional hypothesis（分布式假设），这个假设是words in similar contexts have similar meanings（有相似的上下文的词拥有相似的意思）。之后大家就一句这个假设提出了挺多方法，于是也出现了我们熟悉的用神经网络语言模型训练的方法，并且这种方法还展现了很好的性能。其中当然不能不提的就是Mikolov在2013年提出的word2vec，并且作者的改进主要建立在其中的skip-gram模型中。刚刚也提到了，在本文之前的模型的context一般是线性的，即目标词的前几个词和后几个词，而本文是syntactic contexts(句法上下文)。文章提到不同的上下文能产生非常显著不同的词向量，出现不同的词相似。文章提到，在skip-gram中上下文的bag-of-words nature（应该是自然的没有改变的周围的词的意思）产生的是broad topical similarities(局部相似性)，而基于依存的上下文产生了更加功能性的相似性（根据后面的实验描述，这个意思应该是说类似表达的词的词义更加相近，比如各种国家的表达应该是相近的）。

之后就进入到描述模型的阶段了。首先讲了skip-gram和negative-sampling（负采样），这和word2vec一样。里面解释了负采样为什么是那种形式，貌似我在word2vec的论文中没看到过这段。。负采样的意思大概就是使能一起出现的词对的概率尽可能大，随机采的负例和目标词一起出现的概率尽可能小。
终于到了文章的关键部分了。在解析完（使用的解析工具由Goldberg and Nivre, 2012和2013提出的解析技术）句子之后，能得到的内容如下：对于每一个目标词(w)与其modifiers (m_1), (m_2),...,(m_k)，和head (h)，我们考虑的上下文为((m_1, lbl_1)), ..., ((m_k, lbl_k)), ((h, lbl_h^{-1}))。参见具体的例子即可明白作者的意思，如图所示：

其中要注意的一点是，在介词那里，介词被省略，弧线直接连到了介词所连的词，并且关系变为了{prep,介词本身}。

最后就是实验部分了，实验主要设置了BoW5，BoW2和DEPS（即本文提出的模型）三个的比较。比较主要分为定性和定量。
- 在定性比较中，主要是人工的观察5个最相似的词（通过cosine similarity相似）。得出的结论是，BoW反映的是domain（领域方面），而DEPS反映的是目标词的semantic type（语义类型）。
- 在定量方面，文章在WordSim353 dataset和Chiarello et al. dataset上做了实验，结果都比另外两个对比实验好。但是在另外的任务，比如目标是在相似的集合上排序相关的术语时，结果反转了（这个实验在论文中没有被展示）。
最后的结论什么的没有仔细看。这篇文章发布了源码，在作者的个人主页上，GitHub上也可以搜到，名字是word2vecf。

最后的最后，如果大家有兴趣当然自己看看论文和源码研究一下了，也欢迎和我交流讨论。
查看全文

相关阅读:
eclipse的maven配置及本地仓库配置
 协方差矩阵计算方法
 马氏距离
 Python中的相对路径
 Pytorch中的LSTM和LSTMCell
The Unreasonable Effectiveness of Recurrent Neural Networks
RNN的灵活性
 LSTM和GRU
Nesterov Accelerated Gradient
Wasserstein GAN最新进展：从weight clipping到gradient penalty，更加先进的Lipschitz限制手法

原文地址：https://www.cnblogs.com/WanJiaJia/p/7852973.html

热门文章
JDBC 初始。
外观模式
 模板模式
 原型模式
 工厂模式vs简单工厂
 Oracle中 ORA-12704:字符集不匹配
 代理模式
 装饰模式
 策略模式
 简单工厂设计模式