这篇文章是图卷积神经网络在文本分类上的较早应用,文章中,把整个语料库中的文档、所有重复的词算作图的节点。边的值分不同情况来取值:
- 当i, j两个节点都是词的时候,边的权重Aij = PMI(i, j)
- 当i是文档,j是词时,边的权重是Aij = TF-IDFij
- 当i = j时,边的权重Aij = 1
- 其他情况下,Aij = 0
其中PMI(point-wise mutual information),好像是翻译为逐点互信息,是一种常用的单词关联度量,用于计算两个单词节点之间的权重。文章中,作者也提出说:发现使用PMI所得到的实验结果比使用单词共现计数(word co-occurrence count)更好,以下是PMI的计算方法:
- (PMI(i, j) = logfrac{p(i, j)}{p(i)p(j)})
- (p(i, j) = frac{#W(i, j)}{#W})
- (p(i) = frac{#W(i)}{#W})
上述中:
- #W(i)是语料库中包含单词i的滑动窗口的数量
- #W(i, j)是同时包含单词i和j的滑动窗口的数量
- #W是语料库中滑动窗口的总数
而对于PMI的意义,正的PMI表示语料库中单词的语义相关性很高,而负的PMI值表示语料库中的词的语义相关性很小或没有相关。因此,论文中旨在具有正PMI值的单词对之间添加边。
下图是文章中对GCN的示意图