顶会宠儿：几何深度学习是个啥？读完这篇，小白也可以了解GDL！

会员服务 ·

顶会宠儿：几何深度学习是个啥？读完这篇，小白也可以了解GDL！

2020 年 5 月 8 日 新智元

新智元报道

来源：paperspace

编辑：科雨、白峰

【新智元导读】如果有心，很容易感受到几何深度学习（尤其是图神经网络）在近两年的顶会中超高的存在感。那这一新兴热门领域和传统深度学习有何区别？当前热门应用又是哪些？这篇文章带你迈入几何深度学习(Geometric Deep Learning, GDL) 的大门。「新智元急聘主笔、高级主任编辑，添加HR微信（Dr-wly）或扫描文末二维码了解详情。」

计算机视觉的最新进展，主要来自于新颖的深度学习方法，以及基于大量数据来执行特定任务的分层机器学习模型，随之而来的性能提升，引发了其他科学领域类似应用的淘金热。

随着深度学习技术的发展，人们已经不满足于将深度学习应用于传统的图像、声音、文本等数据上，而是对更一般的几何对象如网络、空间点云、曲面等应用深度学习算法，这一领域被称为几何深度学习（Geometric deep learning）。

下文中，我们将解释GDL中「几何」的含义，同时会将其与其他神经网络结构进行比较。最后，我们还会带大家深入了解它擅长的多种任务，以及最新前沿应用。

放心，即使没有太多的基础，读完这篇文章后，也能充分体会到GDL的魅力。

深度学习巨头LeCun牵头的几何深度学习在讲啥？

2016年，Bronstein的一篇名为《Geometric deep learning: going beyond Euclidean data》的文章来势汹汹，该文的后两位作者分别是Facebook前人工智能团队博士后成员Joan Bruna和现人工智能负责人Yann LeCun ，这也算得上是全明星阵容，因此这篇文章的含金量和参考性就得以保证。

论文传送带：

https://arxiv.org/pdf/1611.08097.pdf

在这篇文章中，研究者首次引入了几何深度学习（GDL）一词。

文章表示，几何深度学习（GDL）定义了新兴的研究领域，该领域主要是针对非欧几里得数据的深度学习。

非欧几里得数据

对于非欧几里得数据，两点之间的最短有效路径不是它们之间的欧几里得距离。我们将使用网格对此进行可视化。在下图中，可以看到，通过离散体素，将经典斯坦福兔子表示为网格（非欧几里得）或呈网格状体积（欧几里得）之间的区别。

点A和B之间的欧式距离是它们之间最短直线路径的长度，可视为图像上的蓝线。两点之间的测地距离，则更类似于绿线的长度。测地距离是高维最短路径概念的表示，而图的测地距离通常是节点之间的最短路径。

以非欧几里德的方式解释网格的优点是，测地距离对于在其上执行的任务更有意义。我们这样想：在深层的CNN中，我们依赖于可能彼此相关的相邻像素。为了在图上重现类似的设置，我们需要考虑重新制定「紧密度」。

当然，我们可以将固有的非欧几里德数据转换为欧几里得数据，但这样的效率和性能损失会很大。在针对零件分类和分割的斯坦福大学ShapeNet数据集上，这一代价显而易见。第一个在Chang等人提出的基准上达到良好结果的神经网络，依赖于对于网格的体积表示，以及处理过程中使用的深度信念网络。

因为问题的规模是立方的，因此这种方法的主要问题，是如何权衡离散化和运行效率。此外，在3D体素上使用卷积，会在3D空间上执行的计算中花费大量的开销。由于在同一体素空间中表示了许多不同的对象，所以没有简单的方法来防止这些空计算的发生。

当前的SOTA方法，则直接在网格结构上执行上述任务，或者将它们转换为点云，从而实现卓越的性能，显著缩短了运行时间。

既然这一部分是几何深度学习，那我不是很懂图论诶，这怎么破？

不用担心，在本文的其余部分中，您不需要图论知识，但您应该先阅读一下，才能使用我们很快将要看的软件库。为了了解GDL中的基本概念，如果您想要对图论中得到很好的入门级理解，可以参考Vaidehi Joshi的《图论的优雅介绍》（A Gentle Introduction To Graph Theory)：

https://medium.com/basecs/a-gentle-introduction-to-graph-theory-77969829ead8

为了理解这一领域的详细算法，想更深一步理解该领域的深度理论，请参阅Wu等人的论文《关于图神经网络的全面研究》(A comprehensive survey on graph neural networks)。

此外，该研究报告中介绍的分类法，还可以帮助您理解此领域与深度学习其他领域的相似之处。

当然，最好的情况是，这篇文章可以让你根据可用的数据，来判断可能的应用场景，并解决现存的问题。

我们了解了GDL与非欧几里得数据有关，需要注意的一点是，我们并不讨论点云，点云虽然具有自身的优势，但是在我们做出的假设上，其实与图和网格有很大不同。

神经网络大比拼

Battaglia等研究者，在关系归纳偏差的基础上，对当前的神经网络组件进行了情境化，并通过以下方式，进行总结：

成分	实体	关系	关系归纳偏差	不变性
全连接神经网络	单元	all-to-all	弱	-
卷积神经网络	网格	局部	局部性	空间顺序
循环神经网络	时间步	序列	序列性	时间顺序
图神经网络	节点	边	任意	节点，边排列

上表已经直接提到了深度CNN的两个基本属性：局部性和空间转换的不变性。此外，通过在深层CNN中堆叠卷积层，我们鼓励网络学习不同抽象级别上的特征。这种层次结构，也是深层CNN的第三个主要属性。这意味着通过顺序组合图层，我们实现了功能层次结构，从而可以在数量上更好地表示有监督任务。总而言之，这三个方面使深层CNN可以很好地应用于到图像域。

当前在GDL中的研究，也试图达到类似的目标，但是这一过程，要建立在功能更强大的推理基础上。正如Francois Chollet在上面的推文中提到的那样，深层的CNN可以很好地概括所有视觉数据。在图形上使用GDL时，我们可以依赖于任意关系归纳偏差，来开发可以推广到任意关系数据的算法。

预测新冠发病率！几何深度学习要怎么玩？

图分割

图的分割是对图的每个组成部分，节点或边进行分类的任务。

从较大的COSEG语义分段数据集中，我们提取出了四足数据集，并显示了此任务的真实标签。在这种情况下，每一部分都有属于五种可能类别之一的标签：耳朵，头部，躯干，腿和尾巴。根据此局部级别的信息，生成节点或边缘标签就变得很简单。当前，这种直接在网格上工作的方法可以在基准上实现很好的SOTA性能。

为什么在这种粒度级别上进行语义分割，有意义吗？好吧，可以想像自动驾驶汽车面对的任务，此情形要求汽车不断监控其环境，并解释下一个行人要做什么。通常，行人可以由大型3D边界框，或具有更多运动程度的骨骼来表示。通过更好，更快的3D语义分割，更多的自动驾驶感知算法将变得可行。

图分类

此子应用类别中的算法，接收图形或子图形作为其输入，并根据与该预测相关的概率值，来预测n个指定类之一。该预测通常以与图像分类非常相似的方式进行，因为所用网络有两个主要部分。

第一个是特征提取器，其功能是根据输入数据为手头的任务生成最佳表示。另外的则是一个或多个完全连接的层，以将结果回归约束到某个维度，而对于多类分类，softmax层是必需的。多类分类意味着对于我们拥有的每个输入，都可能有不止一种类与其对应。

针对这项更广泛的任务，令人激动的例子之一就是3D面部表情的分类。当前社会中，消费级产品已经配备了传感器，并具有足够的计算能力，来生成所需的3D数据结构。

同时，应用在这些数据结构上的算法的可解释性也变得越来越高。Gong等人最近推出了一种基于网格的方法，该方法仅依赖XYZ坐标，而无需任何辅助要素，该方法可在4DFAB上以接近80％的精度实现SOTA性能。

https://github.com/sw-gong/spiralnet_plus

前沿的来了！GDL的现实应用

我们将会介绍工业应用中的一个例子，并留下一些文献供您参考：

在上两节的图分割和图分类的应用举例中，我们专注于来自于经典计算机视觉的任务。而GDL则可以在图结构应用更常见的应用中大放异彩，如知识图谱。

Grakn Labs团队的KGCN是当今冠状病毒（COVID-19）大流行时期中，非常引人注目的应用实例。他们基于KGCN的诊断预测的应用也值得一读：

https://github.com/graknlabs/kglib/blob/master/kglib/kgcn/examples/diagnosis/diagnosis.py

在此应用中，他们利用医生和护士输入的有关过去患者的数据，来收集真实图数据。然后，利用这些真实的图数据，他们可以学习去预测新患者之间的关系。

以冠状病毒为例，我们可以训练神经网络根据数据库中以前的病例，来预测这种病毒感染的可能性。然后，网络可以根据症状来预测疾病在知识图谱中的发病概率关系。该预测机制可以在医院中使用，也可以作为简单的Web应用程序，用作公共服务。

该应用程序可以依靠准确的临床数据，并在用户输入自己的自诊断症状后，告知用户其病毒感染的可能性。甚至可以通过对用户输入的关系（而不是医生或护士）赋予不同的权重，来考虑让用户进行自我诊断。在医院中，这些预测可以帮助医生加快流程，或作为诊断的参考意见。

下面是相关交叉领域用例的延伸阅读：

（1）电力系统图神经求解器

https://ieeexplore.ieee.org/abstract/document/8851855

（2）物理感应图神经网络：在风电场功率估算中的应用

https://www.sciencedirect.com/science/article/abs/pii/S0360544219315555

（3深度强化学习满足图神经网络的需求：探索路由优化用例

https://arxiv.org/abs/1910.07421v2

我们简要介绍了几何深度学习，并将其作为整体深度学习的背景。尽管GDL总体上处理不规则的数据结构，但我们专注于图，并展示了它未来良好的发展空间。

几何深度学习已经有了很多现实应用，感兴趣的同学可以深挖一下，你看好几何深度学习吗？

       
       
         
        
        
          参考资料：
https://blog.paperspace.com/introduction-to-geometric-
       
       
         
       
       
         
        
        
          deep-learning/