zoukankan html css js c++ java

《2020 CVPR 论文分享会|Session2：机器学习》

2020 CVPR 论文分享会|Session2：机器学习

https://www.bilibili.com/video/BV1i5411s7Qr

Model-based robustness v.s. sample-based robustness

对样本扰动，模型预测结果不变

Circle Loss:

统一视角

$K$ 个类内相似性分数 $L$ 个类间相似性分数

Graph-TER：

基本假设：

目的是 E 能学到图的本质特征

三维点云：平移、旋转、剪切 shearing

E可以看成特征提取器

上式的意义：原始 X 和变换后 X~ ，同态映射，即结构不变

即：E提取出了 “共变” 表征

E提取每个节点的特征
D：估算变换 t^

Ls 是原始变换 t 和预测变换 t^ 的MSE

t^ 由解码器预测

后一个期望在采样得到的图 X 和 t 上求

前一个期望（Ls的计算）在采样得到的节点集合 S 上求

转化为 Encoder 和 Decoder 的联合训练问题

算法：

【GraphTER】通过逐点变换实现无监督图神经网络共变特征学习

MAPLE(maple-lab.net)实验室

GraphTER: Unsupervised Learning of Graph Transformation Equivariant Representations via Auto-Encoding Node-wise Transformations

Xiang Gao, Wei Hu, and Guo-Jun Qi

GraphTER: Unsupervised Learning of Graph Transformation Equivariant Representations via Auto-Encoding Node-wise Transformationsarxiv.org https://github.com/gyshgx868/graph-tergithub.com

本论文已被CVPR2020收录，是我们Auto-Encoding Transformations (AET)模型在图计算神经网络上的扩展，并被应用于3D点云数据的分类和分割问题中。

关于更多 AET在不同问题(无监督图像训练、GAN 模型的训练）上的应用，欢迎点击下面的回答。

如何评价 CVPR 2020的论文接收结果？有哪些亮点论文？www.zhihu.com

一、引言

图（Graph）是不规则数据/非欧几里得数据（例如3D点云、社交网络、引文网络、脑网络等）的一种自然而有效的表征。由于图的强大表现力，图数据的机器学习越来越受到重视，如近年来提出的图卷积神经网络（Graph Convolutional Neural Network, GCNN）。不过，现有的GCNN模型大多以监督或半监督的方式进行训练，这需要大量的标记样本才能学习到有效的特征表示。由于标记成本较高（特别是在大规模的图上），现有方法难以进行广泛应用。因此，我们需要以无监督的方式来学习图特征表示，以便适应更多图的学习任务。

代表性的无监督学习方法包括自动编码器（Auto-Encoders，AEs）和生成对抗网络（Generative Adversarial Networks，GANs）。基于AE和GAN，许多方法通过学习“变换共变表征”（Transformation Equivariant Representations，TERs）来进一步提高无监督特征学习的质量。在TER学习中，通常假定在数据上施加变换会引起数据特征空间的共变，因此能够从变换前的和变换后的数据的特征表示中重构施加在数据上的变换，以此来学习数据的特征表示，如Zhang等人提出的AET [1]。然而，AET着重于对图像进行变换共变表征进行学习，难以直接拓展到非欧几里得空间的图数据。

因此，在本文中我们提出在自动编码器框架下，以无监督的方式编码图中节点的变换方式来实现“图变换共变表征”（Graph Transformation Equivariant Representations，GraphTER）学习，如图1所示。我们的方法的创新性体现在两个方面：1）我们定义图信号变换，并提出了一种基于图的自动编码器网络。该网络对原始图和变换后的图进行编码，以便可以从这两种特征表示中重建出图信号上的变换；2）相比于将全局空间变换应用于整个图像的AET，我们对图上的节点进行逐点变换，使得每个节点可以具有不同的变换。因此，通过借助节点邻居信息来解码这些节点的变换能够揭示节点所在邻域的图结构，进而学习各个节点的特征表示。这些特征表示不仅能够捕获节点周围的局部图结构，而且通过在每个训练迭代中随机采样部分节点进行变换来揭示图的全局信息。该论文的arxiv链接是https://arxiv.org/abs/1911.08142，代码已经开源在：https://github.com/gyshgx868/graph-ter

图1：我们提出的无监督图特征学习方法GraphTER。编码器E分别对原始图信号X和邻接矩阵A，以及变换之后的图信号 X ̃ 和邻接矩阵A ̃进行特征学习。解码器D从这两种特征表示预测节点变换，从而使得自动编码器能够学习到图的本质特征。

二、图信号变换

与传统的欧几里得数据（例如图像等）不同，图信号是不规则的，因此难以定义其变换。我们将图信号变换定义为对节点上信号的滤波，如对每个节点独立滤波（平移、旋转等），或考虑邻域信息对节点进行低通/高通滤波。

假设我们从整个变换分布 $mathcal T_g$ 中采样图信号变换 $mathbf t, mathbf tsim mathcal T_g$ 。将该变换应用于从数据分布 $mathbf X_g$ 中采样的图信号 $mathbf X$ 上，我们便得到了变换后的图信号：

$widetilde {mathbf X}=mathbf t(mathbf X)$

变换t将应用于每个节点，与t相关联的每个节点信号的变换可以彼此不同。例如，对于平移变换，我们可以将不同的平移量应用于不同的节点。如果每个节点的变换是相同（不同）的，我们将该变换称为各向同性（各向异性）的。与变换后的图信号 $widetilde{mathbf X}$ 关联的的邻接矩阵为

$widetilde{mathbf A}=f(widetilde{mathbf X})=f(mathbf t(mathbf X))$

其中 $f(cdot)$ 是线性或非线性函数，应用于每对节点以获得其相似性。例如，一种广泛采用的 $f(cdot)$ 是根据节点特征构建近邻（k-nearest-neighbor，-NN）图。这样我们得到了变换后的图，因为 $widetilde{mathbf A}$ 中边的权重也间接地通过t进行变换。

在本文中，我们专注于逐节点图信号变换，即每个节点各向同性或各向异性地具有自己的变换。这种做法有两个优点：

（1）通过对逐节点应用变换，我们可以在图中采样部分节点来研究在各种变换下图的不同部分的特征；

（2）通过解码节点的变换，我们能够学习单个节点的特征表示。此外，这些节点的特征表示不仅能够捕获局部图结构信息，而且在每个训练迭代中随机地采样部分节点施加变换，随着训练迭代的增加还能够学习到全局的图结构信息。

三、方法

给定一组包含个节点的图信号 $mathbf X={mathbf x_1, mathbf x_2, cdots,mathbf x_N}^intercal$ ，在每个训练迭代中, 我们遵循样本分布 $mathcal S_g$ ，随机地从图中的所有节点全局或局部地采样节点子集S，即 $mathbf Ssimmathcal S_g$ 。全局采样是指在全局范围内对整个图的所有节点进行随机采样，而局部采样则仅限于图中的一组局部节点。

图2：在3D点云上展示不同的采样方法（全局或局部）和逐节点平移方法（各向同性或各向异性），红色和蓝色点分别表示经过变换的点和原始点。为了能够清晰地展示，我们将整个机翼作为局部采样的点集。

然后，我们对S中的每个节点 $mathbf x_i$ 施加节点变换 $mathbf t_i$ （各向同性或各向异性），如图2所示。与此同时，与变换后的图信号关联的邻接矩阵 $widetilde{mathbf A}$ 也在变换t下与A共变。如图3所示，我们构造了一个k-NN图，在对采样的节点进行变换之后，邻接矩阵A中表示的连通信息也会随之改变。

图3：进行逐节点变换前后的-NN图示例。我们首先以黄色节点为中心构建k-NN（ k=5 ）图（其他连接略去）。然后，我们在部分蓝色节点上进行平移变换，从而改变了黄色节点周围的图拓扑结构。

具体来说，给定图信号和与其对应的邻接矩阵 $(mathbf X,mathbf A)$ ，以及经过t变换的图信号和邻接矩阵 $(widetilde{mathbf X},widetilde{mathbf A})$ ，如果函数 $E(cdot)$ 满足下述等式，那么我们称则函数 $E(cdot)$ 是满足“变换共变性”的：

$E(widetilde{mathbf X},widetilde{mathbf A})=E(mathbf t(mathbf X),f(mathbf t(mathbf X)))= ho(mathbf t)[E(mathbf X,mathbf A)]$

其中 $ho(mathbf t)$ 表示在特征空间中 $mathbf t$ 的同态变换。

我们设计了自动编码器网络来学习变换共变表征：编码器 $E(cdot)$ 对图中节点的特征表示进行编码，而解码器 $D(cdot)$ 从编码器学习到的原始和变换后的图信号的特征表示中估算逐节点变换 $hat{mathbf t}$ 。

为了估计逐节点变换 $hat{mathbf t}$ ，我们应用损失函数 $ell(mathbf t, hat{mathbf t} )$ 来最小化逐节点变换和估计的变换之间的差异。这时，整个自动编码器网络便可以通过最小化下面的损失函数进行训练：

$min_{E,D}mathbb E_{mathbf Ssim mathcal S_g}mathbb E_{mathbf tsimmathcal T_g,mathbf Xsimmathcal X_g}ell(mathbf t, hat{mathbf t} )$

在上述公式中，从解码器估计的逐节点变换表示为：

$hat {mathbf t}=D(E(mathbf X,mathbf A),E(widetilde{mathbf X},widetilde{mathbf A}))$

因此，我们通过反向传播该损失来迭代地更新编码器E和解码器D中的参数。

为了估计这些逐节点变换，我们设计了图卷积自动编码器网络，如图4所示。我们选择一种图卷积方法EdgeConv [2]作为自动编码器网络的基本构建模块，该图卷积通过聚合每个节点和其周围邻居的特征来学习节点的特征表示。

图4：GraphTER自动编码器网络结构。在无监督特征学习阶段，特征编码器和变换解码器将在无标签的样本上进行训练。在评估阶段，我们提取编码器的前几个EdgeConv模块，冻结其权重作为特征提取器，并使用标记的样本训练线性分类器完成特征的分类。

三、实验结果

我们以3D点云分类任务和分割任务为例来验证我们提出的GraphTER模型。

1. 3D点云分类

我们在ModelNet40数据集上来验证GraphTER模型。在该数据集中，我们将3D点云中的点视为图上的节点，3D点坐标视为图信号，并通过点坐标间的欧氏距离在点云上建立k-NN图（ $k=20$ ）。

表1展示了3D点云的分类结果，在实验中我们选取25%的节点应用各向同性的逐节点剪切（Shear）变换。我们与无监督方法和有监督方法进行比较。GraphTER模型在ModelNet40数据集上达到了92.0％的分类准确率，这优于最新的无监督方法。大多数的无监督模型都结合了GAN和AED的思想，例如FoldingNet，MAP-VAE和L2G-AE。结果表明，GraphTER模型相比于这些方法都有显著的提高，表明了GraphTER模型优于GAN和AED。此外，无监督的GraphTER模型还可以达到与全监督模型结果相当的分类准确率，这极大地缩小了无监督方法与全监督方法之间的差距。

表1：3D点云分类准确率对比（%）

2. 3D点云分割

在该任务中，我们使用ShapeNet part数据集来验证我们的模型。我们同样将GraphTER分别同无监督方法和有监督方法进行比较，如表2中所示。我们的模型达到了81.9％的mIoU，这比最先进的无监督方法MAP-VAE提升了13.9％。此外，无监督的GraphTER模型还可以达到与最新的全监督的方法相当的性能。

表2：3D点云分割准确率对比（mIoU%）。

图5展示了GraphTER模型和两个全监督的方法（DGCNN和RSCNN）的3D点云分割的可视化结果。在第一行的“桌子”模型上，GraphTER模型带来了更准确的分割，并在其他模型上获得了相似的分割结果。

图5：GraphTER与全监督方法的3D点云分割可视化结果对比。

此外，我们也将GraphTER和最新的无监督方法MAP-VAE进行对别，如图6所示。与MAP-VAE相比，我们的模型能够带来更准确的分割结果，例如飞机的引擎和椅子腿的部分。

图6：GraphTER与无监督方法MAP-VAE的3D点云分割可视化结果对比。

五、结论

在本文中，我们提出了一种以无监督方式自动编码节点的变换来学习图变换共变表征的方法——GraphTER。我们全局或局部地从图上采样不同的节点，然后各向同性或各向异性地进行逐节点变换，从而能够表征各种规模的图结构。通过解码这些逐节点的变换，GraphTER能够学习到图的固有表征。我们将GraphTER应用于3D点云分类和分割任务中，实验结果验证了GraphTER优于最新的无监督方法，并且大大缩小了与全监督方法性能之间的差距。我们将在未来的工作中将GraphTER模型推广到更多的应用中，例如引文网络或社交网络的节点分类。

[1] Liheng Zhang, Guo-Jun Qi, Liqiang Wang, and Jiebo Luo. AET vs. AED: Unsupervised Representation Learning by Auto-Encoding Transformations rather than Data. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 2547–2555, 2019.

[2] Yue Wang, Yongbin Sun, Ziwei Liu, Sanjay E Sarma, Michael M Bronstein, and Justin M Solomon. Dynamic Graph CNN for Learning on Point Clouds. ACM Transactions on Graphics (TOG), 38(5):146, 2019.

[3] Xiang Gao, Wei Hu, and Guo-Jun Qi. GraphTER: Unsupervised Learning of Graph Transformation Equivariant Representations via Auto-Encoding Node-wise Transformations. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020.

欢迎大家关注我的知乎账号

齐国君www.zhihu.com

与我的专栏

深度学习前沿研究（MAPLE实验室）zhuanlan.zhihu.com

编辑于 2020-05-06

stochastic sparse subspace clustering

先看稀疏子空间聚类的 basics：

https://xijunlee.github.io/2016/12/22/2016-12-22-man-tan-gao-wei-shu-ju-ju-lei-2-zi-kong-jian-ju-lei/

漫谈高维数据聚类(2):子空间聚类

2016-12-22

摘要

如今处理高维数据的问题往往会有两座“大山”，分别是存储成本高和计算时间过长。显然，这是因为数据的高维数造成的。面对大规模的高维数据的聚类任务，传统的聚类算法有点hold不住了，正因此，子空间分割算法应运而生。

前面的一篇文章应该是解释清楚了啥是聚类，也安利了一个经典的聚类算法——K均值聚类。本篇开始正式介绍一些子空间聚类算法，以及这些聚类算法的应用实例。

1.什么是子空间聚类

给定一个n个样本构成的矩阵 $X = [x_{1}, x_{2}, \dots, x_{n}] \in R^{m * n}, x_{i} \in R^{m}$

从上图可以看到，总共有三个子空间，每个子空间上都有一些样本，位于同一个子空间内的样本就可以说是同一类的。每一个子空间有其相应的维数d,和一组基 $[b_{1}, b_{2}, \dots, b_{d}]$

2.稀疏表示模型和低秩表示模型

目前，有四大类主流的求解子空间聚类问题的算法，分别是：

（1）基于统计的方法：混合数据假设是从服从某一概率分布（如混合高斯分布）中抽取出的独立样本集，于是数据的分割问题就转化为一模型估计问题。代表性的工作有凝聚有损压缩[2]和随机抽样一致[1]；

（2）基于矩阵分解的方法：将数据矩阵分解为一正交基矩阵和一低秩矩阵的乘积，从分解结果的结构来揭示聚类的特性。当子空间含有噪声和奇异值，或者独立子空间的假设不成立时，此类方法的效果不尽人意。代表性的工作有K子空间分割[4]；

（3）基于代数的方法：可以处理子空间不是相互独立的情况，但计算量大，且对噪声和奇异值敏感。代表性的工作有Generalized PCA(GPCA)[3]；

（4）基于谱聚类的方法：谱聚类算法是一种对高维数据进行聚类的技术。基于谱聚类的子空间分割算法先根据观测样本求得一个相似矩阵，然后对这个相似矩阵进行谱聚类获得最终的聚类结果。代表性的工作有稀疏子空间聚类[5]和低秩表示子空间聚类[6][7]。

而我要安利的是基于谱聚类的两个算法：稀疏表示子空间聚类算法和低秩表示子空间聚类算法，这两个算法都是比较简单和直观的，是子空间聚类研究这一块的基石性的算法，很多新算法都是在这两个算法的基础上加以改进而提出来的。当然，想要弄清楚这两个算法，还是需要一些简单的线性代数知识的。

稀疏表示(Sparse Representation)

稀疏表示这一概念的提出，说到底还是受到压缩感知理论[8][9]的启发。该理论认为很多高维数据是冗余的，如果其具有可压缩性，那么可以只需要通过少量的采样便可恢复原始高维数据。更简单地说就是，许多高维数据是存在其低维表示的。

学过线性代数的都应该知道线性相关这一概念，即向量组 $X = [x_{1}, x_{2}, \dots, x_{n}]$

有了以上两个认知，就可以理解稀疏表示了。在前面提到过位于同一个子空间中的样本，如果样本数足够多，那么某一个样本 $x_{i}$

给定一个n个样本构成的矩阵$X=[x_1,x_2,…,x_n]in R^{mn},xiin R^m $, 其中每一列是一个样本，由$ {i1},x{i2},…,x{id}]in R^{md} $,$

X = D Z

其中, $Z = [z_{1}, z_{2}, \dots, z_{n}]$

min ‖ Z ‖ 1

s . t .

其中， $‖ \cdot ‖_{1}$

min ‖ Z ‖ 1 + λ ‖ E ‖ F

s . t .

低秩表示(Low-rank Representation)

低秩表示模型和稀疏表示模型几乎一样，区别仅在于对系数矩阵的约束不同，在低秩表示中，它期望系数表示矩阵Z尽可能的低秩，用数学语言描述如下:

min r a n k (Z)

s . t .

其中, $r a n k (Z)$

min ‖ Z ‖ *

s . t .

其中， $‖ \cdot ‖_{*}$

低秩表示模型是在稀疏表示模型之后提出来的，当然它比稀疏表示模型的性能更好，这是因为低秩表示模型中的核函数自带聚集属性，具体的原因我推荐论文[10]中的讲解（在其第五章中）。

##上述两个模型的求解

求解这两个模型的方法有很多，有兴趣的朋友可以参阅论文[11]。

Reference
[1]Fischler M., Bolles R. RANSAC random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography. Journal of ACM, 1981, 24(6): 381–395.
[2]Ma Y., Derksen H., Hong W., Wright J. Segmentation of multivariate mixed data via lossy coding and compression. IEEE Trans. Pattern Analysis and Machine Intelligence, 2007, 29(9): 1546–1562.
[3]Vidal R., Ma Y., Sastry S. Generalized principal component analysis (GPCA). IEEE Trans. Pattern Analysis and Machine Intelligence, 2005, 27(12): 1–15.
[4]Lu L., Vidal R. Combined central and subspace clustering on computer vision applications. In: Proc. 23rd Int’l Conf. Machine Learning (ICML), 2006, pp.593–600.
[5] Elhamifar E, Vidal R. Sparse subspace clustering[J]. IEEE Conference on Computer Vision and Pattern Recognition, Cvpr, 2009:2790 - 2797.
[6]G L, Z L, S Y, et al. Robust Recovery of Subspace Structures by LowRank Representation[J]. Pattern Analysis & Machine Intelligence IEEE Transactions on, 2010, 35(1):171 - 184.
[7]X G, K Z, D T, et al. Image SuperResolution With Sparse Neighbor Embedding[J]. IEEE Transactions on Image Processing, 2012, 21(7):3194 - 3205.
[8]Donoho D L． Compressed sensing． IEEE Transactions on Information Theory,2006 52(4)：1289-1306．
[9]Cand6s E．Compressive sampling．Proceedings of Proceedings of Inter-national Congress of Mathematicians，2006．1433-1452．
[10] 卢参义. 基于稀疏表示的人脸分类与聚类[D]. 中国科学技术大学, 2012. DOI:10.7666/d.y2126052.
[11]Lin Z, Chen M, Ma Y. The Augmented Lagrange Multiplier Method for Exact Recovery of Corrupted Low-Rank Matrices[J]. Eprint Arxiv, 2010.