zoukankan      html  css  js  c++  java
  • Graph Convolutional Networks for Text Classification——论文笔记

    这篇文章是图卷积神经网络在文本分类上的较早应用,文章中,把整个语料库中的文档、所有重复的词算作图的节点。边的值分不同情况来取值:

    • 当i, j两个节点都是词的时候,边的权重Aij = PMI(i, j)
    • 当i是文档,j是词时,边的权重是Aij = TF-IDFij
    • 当i = j时,边的权重Aij = 1
    • 其他情况下,Aij = 0

    其中PMI(point-wise mutual information),好像是翻译为逐点互信息,是一种常用的单词关联度量,用于计算两个单词节点之间的权重。文章中,作者也提出说:发现使用PMI所得到的实验结果比使用单词共现计数(word co-occurrence count)更好,以下是PMI的计算方法:

    • (PMI(i, j) = logfrac{p(i, j)}{p(i)p(j)})
    • (p(i, j) = frac{#W(i, j)}{#W})
    • (p(i) = frac{#W(i)}{#W})

    上述中:

    • #W(i)是语料库中包含单词i的滑动窗口的数量
    • #W(i, j)是同时包含单词i和j的滑动窗口的数量
    • #W是语料库中滑动窗口的总数

    而对于PMI的意义,正的PMI表示语料库中单词的语义相关性很高,而负的PMI值表示语料库中的词的语义相关性很小或没有相关。因此,论文中旨在具有正PMI值的单词对之间添加边。

    下图是文章中对GCN的示意图

  • 相关阅读:
    问题
    cas restful接口实现SSO
    变量,数据类型
    注释
    下载,配置环境变量,第一个demo
    数据挖掘概念与技术(韩家伟)阅读笔记1
    pattern与matcherr
    Array.sort排序
    linux下C语言中的flock函数用法 【转】
    我为什么要进国企----HP大中华区总裁孙振耀退休感言
  • 原文地址:https://www.cnblogs.com/nanjibin/p/14464743.html
Copyright © 2011-2022 走看看