DAGs with NO TEARS: Continuous Optimization for Structure Learning
概
有向图可以用邻接矩阵(A in {0, 1}^{d imes d})来表示, 其中(A_{ij} = 1) 表示 node (i) 指向 node (j). 进一步的, 我们想要表示有向无环图(DAG), 则(A)需要满足额外的性质, 保证无环.
现在的问题是, 有一堆观测数据(X in mathbb{R}^{n imes d}), 如何通过这些数据推测其(特征之间的)关系, 即对应的(A).
主要内容
首先, 假设特征之间满足一个线性关系:
其中
(z)为随机的噪声.
通过(W)可以推出相应的(A=mathcal{A}(W)), 即
故我们目标通常是:
其中(mathbb{D})表示有向无环图.
进一步地, 因为我们希望(W)是一个系数的矩阵(否则断然不是DAG), 故
并
显然现在的关键是如何处理(mathcal{A}(W) in mathbb{D})这个条件, 以前的方法通常需要复杂的运算, 本文提出一种等价的条件
满足
- (h(W)= 0)当且仅当(mathcal{A}(W) in mathbb{D});
- (h(W))越小, 说明(mathcal{A}(W))越接近无环图;
- (h(W))是一个光滑函数;
- (h(W))便于求导.
显然1是期望的, 2可以用于判断所得的(W)的优劣, 3, 4便于我们用数值方法求解.
等价条件的推导
(mathrm{tr}(I-W)^{-1} = d)
Proposition 1: 假设(W in mathbb{R}_+^{d imes d}) 且 (|W| < 1), 则(mathcal{A}(W))能够表示有向无环图当且仅当
proof:
(A = mathcal{A}(W))能够表示有向无环图, 当且仅当
(Rightarrow)
由于(|W| < 1)(最大奇异值小于1), 故
(Leftarrow)
(mathrm{tr}(W^k) ge 0), 故
当且仅当
注: (|W| < 1)这个条件并不容易满足.
(mathrm{tr}(e^W)=d)
注: (e^A = I + sum_{k=1} frac{A^k}{k!}).
Proposition 2: 假设(W in mathbb{R}_+^{d imes d}), 则(mathcal{A}(W))能够表示有向无环图当且仅当
proof:
证明是类似的.
注: 此时对(W)的最大奇异值没有要求.
(mathrm{tr}(W^k) = 0)
这部分的证明可能应该归属于DAG-GNN.
Proposition 3: 假设(W in mathbb{R}_+^{d imes d}) , 则(mathcal{A}(W))能够表示有向无环图当且仅当
proof:
(Rightarrow)是显然的, 证明(Rightarrow)只需说明
假设(W)的特征多项式为(p(lambda) = sum_{k=0}^d eta_k lambda^k, eta_d=1), 则有
进一步有
由归纳假设可知结论成立.
Corollary 1: 假设(W in mathbb{R}_+^{d imes d}) , 则(mathcal{A}(W))能够表示有向无环图当且仅当
(mathrm{tr}(e^{W circ W}) =d)
注: (circ) 表示哈达玛积, 即对应元素相乘.
上面依然要求(W)各元素大于0, 一个好的办法是:
Theorem 1: 一个矩阵(W in mathbb{R}^{d imes d}), 则(mathcal{A}(W)) 能表示有向无环图当且仅当
proof:
(mathcal{A}(W)=mathcal{A}(W circ W)).
(mathrm{tr}(I + W circ W)^d =d)
Theorem 2: 一个矩阵(W in mathbb{R}^{d imes d}), 则(mathcal{A}(W)) 能表示有向无环图当且仅当
注: (W circ W)前面加个系数也是没关系的.
性质的推导
故, 此时我们只需设置
显然满足1,2,3, 接下来我们推导其梯度
故
注: 其中(M =W circ W).
求解
利用augmented Lagrangian转换为(这一块不是很懂, 但只是数值求解的东西, 不影响理解)
具体求解算法如下: