  • DeepWalk论文精读:(1)解决问题&相关工作



    1. 研究背景


    2. 问题描述

    给定一个社交网络,以图$G_L=(V,E,X,Y)$的形式表示,其中$X in mathbb{R}^{|V| imes S}$ ($S$是每个属性节点的特征空间大小),$Y in mathbb{R}^{|V| imes |Y|}$ ($Y$是标签集合)。X是一个节点个数x节点特征空间维数的矩阵,即用S维的向量来代表图中的每一个节点。Y是一个节点个数x标签个数的矩阵,代表每个节点都有一个自己的标签。

    任务是将社交网络中的结点进行分类,但该分类问题和普通分类不同。普通的分类问题学习函数$H$将$X$映射到$Y$,但对于一个图,需要利用到节点在图中嵌入的信息,即节点邻居等。这部分信息常常是隐藏的,不体现在$X$当中,需要结合网络结构来进行分类[37],单个节点的分类不是独立的任务,而是与其它节点的分类相关。这被称作集体分类(Collective Classification)或关联分类(Relational Classification)。

    DeepWalk从关联分类任务中提取除了上游子任务——学习所有结点的嵌入表示$X_E in mathbb{R}^{|V| imes d}$,其中$d$是一个较小的维度数,$X_E$可用于捕捉节点的结构信息

    1. 适应性。能适应在时刻变化的社交网络,新加入边时不需要重新学习。
    2. 社群性。两个嵌入表示之间的距离应当可以度量两个节点之间的相似性,这个性质可以保证同质图上的泛化效果。
    3. 低维性。低维度的表示可以在少量标注数据上获得更好的泛化性能,且能加速收敛。
    4. 连续性。连续的表示在区分社区边界上更加平滑,使得分类结果更加鲁棒。

    3. 研究现状

    3.1 网络特征生成

    在DeepWalk出现前,网络特征表示大多过于稀疏。稀疏性使得基于统计的学习模型变得难以泛化,增加了在网络上进行分类[15, 37]、内容推荐[11]、异常检测[5]、缺失边预测[22]等研究任务的难度。DeepWalk在以稠密、低维形式表征网络节点上做出了突出贡献。

    3.2 关联分类

    在传统的关联分类算法中,将问题转化为无向马尔科夫网络(undirected Markov network)的推断(inference)问题,在知道网络结构的情况下使用迭代近似推断算法(iterative approximate inference algorithm),比如迭代分类(iterative classification)[31]、Gibbs采样(Gibbs Sampling)[14]、标签松弛(label relaxation)[18],来计算后面的标签分布。但DeepWalk采用了另一种不利用标注数据的、无监督的方法,如果引入一些标注数据,还可以进一步提高效果。


    3.3 随机游走和语言模型

    DeepWalk将两个不相干领域的模型与算法进行了融合。一是随机游走(Random Walk),用于捕捉节点的局部结构,该方法曾被用于内容推荐[11]、社区识别[1, 38]等。二是语言模型(Language Modeling),特别借鉴了“利用一个单词预测上下文”的skip-gram算法。




