zoukankan      html  css  js  c++  java
  • NEU(Fst Network Embedding Enhancement via High Order Proximity Approximation)

    NEU(Fst Network Embedding Enhancement via High Order Proximity Approximation)

    NEU:通过对高阶相似性的近似,加持快速网络嵌入

    NRL的框架总结

    • First, Clarify the notations and formalize the problem of NRL.
    • Then, Introduce the concept of k-order proximity.
    • Finally, Summarize an NRL framework based on proximity matrix factorization and show that the aforementioned NRL methods fall into the category.

    定义本文处理的图是无权无向图。这也是他的局限性。这是一个NEU算法的缺点!

    对角阵 (D_{ii}=d_i)(v_i)节点的度。(A=D^{-1} widetilde A) ,是对邻接矩阵(widetilde A)的归一化结果。
    Laplacian Matrix: (widetilde L = D - widetilde A), 这是把(widetilde A)全取反再在对角线上加上(v_i)的度数。
    Normalized Laplacian Matrix: $ L = D^{-frac{1}{2}}widetilde L D^{-frac{1}{2}} $

    这俩Laplacian matrix 拿来何用?

    K-order proximity

    $ A(和)widetilde L$ characterize 一阶相似性,建模局部节点对的proximity。
    还是沿用GraRep的K-step转移概率矩阵:transition probability matrix 作为k-order proximity matrix.
    (A^k = underbrace{A cdot A ... A}_{k})

    NRL Framework

    Step1: Proximity Matrix Construction 相似性矩阵建立
    相似性矩阵(M in mathbb R^{|V| imes |V|})编码了 (k) 阶相似性,(k = 1,2,...,K) .有(A)是normalized邻接矩阵, (M=frac{A+A^2+...+A^K}{K})表示了K阶相似性矩阵的联合再平均。(M)通常是由(A)(K)级的多项式表示,文章记为(f(A) in mathbb R^{|V| imes |V|}), (K)级是多少,depends on 相似度矩阵proximity matrix要表达的最大的proximity阶数。

    Step2: Dimension Reduction 维数约减
    寻找2个矩阵,(R)(C).

    • (R in mathbb R^{|V| imes d}) 是节点的低维向量表达,
    • (C in mathbb R^{|V| imes d})是context角色时,节点的低维向量表达。

    矩阵的乘积(R cdot C^T)就是对原网络的相似性矩阵(M)的近似。这里,不同的算法对(R cdot C^T)(M)的距离有不同的描述,employ different distance function. 比如,用(M- R cdot C^T)

    前人的方法与本框架的关系
    Spectral Clustering:
    DeepWalk:
    GraRep:
    TADW:
    LINE:

    观察和Problem Formalization

    既然是2步框架,第一步是建立proximity matrix,怎么建立一个好的proximity matrix for NRL.在这篇文章里讨论。
    至于第二步,维数约减,future Work.

    Observation 1: 更高阶的,和更精确的proximity matrix可以提升模型的学习效果。也就是说,如果探索一个更高阶的polynomial proximity matrix (f(A)),NRL可以因此受益。

    Observation 2:对大规模网络来说,对高阶的proximity matrix的精确计算是不可行的。实际上对proximity matrix的计算takes (O(|V|^2)) time. SVD的时间复杂度也随k 的增大,get dense,从而增加。

    其实Observation1&2是矛盾的,前者要更精确,更高阶。后者又表明越高阶越难算。
    因此如何高效地获得高阶的proximity matrix变为一个问题。
    文章的解决方案是,先对低阶的proximity matrix的信息进行编码,以此作为一个基础,来避免重复的计算。

    问题的构建
    有个假设,(R)(C)是某个NRL算法学到的表达,(R cdot C^T)(K)阶的多项式proximity matrix (f(A)) 构成近似。目的就是学到一个更好的(R')(C'),它俩可以构成对(g(A))的近似,这个(g(A))(f(A))更高阶。并且,算法还要高效,should be efficient in the linear time of (|V|). 注意,时间复杂度下界是(O(|V|d)) ,which is the size of embedding matrix (R).

  • 相关阅读:
    想想学习C已经有9年了, 应该可以写一些东西了.——转
    python gmail 多个收件人
    翻译_工具建议
    C语言的可变参数——转
    XP专业版中安装了IIS,配置好之后只能访问静态htm网页,图片之类的,但是ASP 文件确不能读取,提示无法显示网页提示
    ubuntu 修改IP,网关等
    java发送邮件
    在MyEclipse中配置Tomcat服务器
    国外程序员推荐:每个程序员都应读的书(转载)
    100个有关管理的网站
  • 原文地址:https://www.cnblogs.com/sonictl/p/9041621.html
Copyright © 2011-2022 走看看