当前位置:首页 > 科学 > 【深度学习】图网络——悄然兴起的深度学习新浪潮

【深度学习】图网络——悄然兴起的深度学习新浪潮

关键词:   发布时间:2019-07-12 08:00:02

现实世界中的大量问题都可以抽象成图模型(Graph Model),也就是节点和连边的集合。从知识图谱到概率图模型,从蛋白质相互作用网络到社交网络,从基本的逻辑线路到巨大的Internet,图与网络无处不在。然而传统的机器学习方法很难处理图网络信息,这种缺陷大大限制了深度学习的应用领域。于是人们提出了图网络(Graph Network),一种基于图结构的广义人工神经网络,它可以直接对真实问题进行建模,又可以利用自动微分技术进行学习,甚至有望将多个传统人工智能领域进行融合。

我们知道,深度学习已经在很多领域都有成功的应用,比如图像,语音等,那么在深度学习中最本质的因素是什么呢?

实际上,我们可以这样理解:在以前,人类的知识被我们通过编程写成程序,处理问题。而现在,我们将人类的知识编码到神经网络中,它们变成了隐藏于网络结构、节点和大量数据中的信息。

从更深层次来看,我们可以将神经网络认为是一种可微分的编程,例如深度神经网络可以用背后的计算图机制作为支撑,进行反向传播。实际上,我们将符号计算与数值计算在神经网络优化过程中进行了融合。所以我们可以进行求导,求微分的操作。那么这就意味着,深度学习可以被应用于任何可微分的领域,甚至我们可以畅想:在未来,所有的可微分的事物都是可学习的。


深度学习的广泛应用


让我们来回顾深度学习的运转过程:人类设置一个架构,为机器设置一个评价标准,接下来就可以让神经网络自动去学习,完成这个优化目标。


例如,图像中具有大量的平移和旋转不变性,而人类设置了卷积神经网络这种可提取多层次信息的架构,很好地将图像中的深层次信息学出来。对时间序列,我们也可以设计RNN的架构(及其变体)来学习到时间序列中的隐藏信息。当然,我们还有类似于Attention机制等更先进的架构去关注数据中的关联关系,又或者Deepmind推出的“可微分计算机”——它与冯诺伊曼的计算机体系完全不同,这可以让我们去学习整个冯诺伊曼的计算机体系。

图网络


当我们放眼大千世界事,我们会发现图像、语音、语言数据很规则,很方便处理,但很少。更多的情况下,我们有大量的非欧式的图网络数据,例如社交网络、脑影响网络等。能否对图网络进行处理呢?答案是显然的。


可微分计算机


在这篇最近非常火热的综述文章:relational inductive biases, deep learning, and graph networks 中,已经提到了一种框架将深度学习与贝叶斯网络进行了融合,其结果是产生了一种具有推理能力的概率图模型。但不仅如此,他们还提出了更多思路去结合深度学习与图网络,指明了在图网络领域应用深度学习的清晰方向。


在图网络中,有很多例子可以完成对现实世界的抽象。什么是图网络呢?本质上,它是对神经网络的扩充,我们知道,神经网络的结构很特殊,而他的学习方式也通过反向传播进行连边上的权重调整。而图网络则可以从多个角度对神经网络进行扩充,具体而言,任何一个图网络都包含节点、连边、全局信息这样三个大的信息单元,每个单元都可以被表征为一个向量。相比于深度学习只能更新权重,图网络的学习发生于每一个环节上,包括对连边状态的更新、节点状态的更新和全局信息的更新。在做完前馈运算之后,它也会进行反向传播学习,因为它的每一步计算都是可微分的。


我们可以这样理解图网络的学习能力:图网络将前馈的思路放在了每一个环节,连边、节点、全局信息就都可以在反馈过程中被调整,这就使得网络的整体架构变得可学习。


网络的节点、连边和全局信息


前文论文中提到的所谓的inductive bias,指的是人类对世界的先验知识,对应在网络中就是网络结构。图网络中的网络结构是固定不变的,我们可以将其理解为工程师放进去的一种先验的“偏见”,如果工程师认为A事件导致B事件发生,那么他就会在A、B之间放上一条连边,这就体现了A、B之间的因果关系,我们称之为推理能力。

图网络可以做什么?


例如我们将机械狗作为一个物理上的多体框架放在图网络上进行处理,首先,图网络可以将机械狗的每个机械结构作为一个实体,机械结构之间由关节相连,关节就可以被看做连边,而节点和连边之上都是带有信息的,这样我们就获得了一份图网络数据。每个节点上都可以有一组向量,而机械狗的运动就可以由所有的节点向量和连边向量来表示。当然,我们也可以加入更多的全局信息,例如从宏观状态上观察到的机械狗的运动信息等等。


用图网络表示机械狗


因此,我们对机械狗从各个角度进行了可微分描述,也建立了表示这些信息的图网络,接下来我们就可以学习机械狗的运动模式了。


怎样进行更高层的信息整合呢?在基本的图网络构建完成之后,我们可以在高层次对信息进行处理来完成更复杂的任务。例如,我们可以将多个图网络叠加在一起(每一个图网络都是同构的,但它们表征的信息并不同),这样我们就可以构建出多层的图网络,从而拟合复杂的运算过程。我们也可以将不同时间的图网络状态放入RNN架构中,从而完成对网络状态的预测,甚至我们可以将网络的输出作为自己的输入,进行后续状态的预测和生成


图网络的高层信息整合


除了物理系统,我们也完全可以将这一套原理放在更宏观的架构之下,例如,我们可以用这一种框架去学习网络上的动力学过程,例如在社交网络上,每个人都是节点,而人们在社交网络上的观点是怎样传播的?在交通流中,交通信息(堵车程度,车速信息等)又该怎样传播?这一类问题都可以通过图网络来解决。

图卷积


为了能够更好的整合图网络信息,我们可以对图网络进行卷积操作,具体来说,我们可以应用图信号处理领域知识,对图数据进行傅立叶变换,将卷积的定义扩展到图数据上。最终,我们可以通过图网络上的简单矩阵相乘和线性映射来表示图卷积,从而对每一组向量的信息进行深层次提取。


对图网络进行卷积之后,我们很意外的发现,图网络竟然在完全随机化的初始条件下,完成了在表征空间下的标签聚类。实际上,这正是因为图卷积操作就是在捕获图网络上的邻域信息,而邻域信息也被包含于节点和连边的数值中。在经过非线性映射之后,我们可以将其理解为对各种特征进行强化和分散处理,使特征更为明显,从而更好地完成聚类。


使用图网络进行聚类


除此之外,我们还可以通过半监督学习来预测节点信息:通过已知节点的信息和图卷积方法运行图网络,标签信息就会在图数据上扩散,然后我们再用已知节点作为监督信息去调节,这就让整个网络上都拥有了标签信息,其准确度是非常高的,有些甚至可以超过80%。


此外,我们自己的研究组还做了网络上的SIR模型(传染病模型),这个模型的运作规律是:每个人有健康、染病和恢复三个状态,在每个时间步中,每个人都有一定的概率被他的邻居感染,被感染者也有一定的概率恢复健康。


图网络在SIR模型上的应用


在SIR的过程中,我们可以使用图网络进行学习,用当前时刻的状态去预测下一时刻的状态,其预测效果是非常好的。更有意思的是,我们可以用已知节点的信息去预测未知节点的信息,在网络结构状态已知,部分节点状态未知的情况下,所有的节点信息都可以被比较准确地恢复。

图网络上的注意力


除了卷积之外,图网络上的注意力也是一个有趣的研究方向,我们知道注意力机制现在已经被应用于图像、语言信息的处理中,现在注意力机制也被应用于图网络数据的处理中来。


在图卷积网络中,我们可以将注意力结构内嵌其中,在每次更新节点信息时,我们需要计算出网络的注意力、注意力表示节点和节点之间的关系权重,我们可以将其理解为每个节点在进行更新的过程中更应该关注谁,谁对这个节点来说更重要。

使用图网络进行融合推理


我们知道,贝叶斯网本身表示了随机变量间的因果关系。通常情况下,贝叶斯网络的图结构需要被人为建立,并且给出节点和连边的概率分布。在深度学习出现之前,我们用隐马尔可夫过程去完成语音的学习,我们会使用到信念传播算法。但现在我们可以从新的角度去学习:将节点和连边映射为图网络,在图网络上进一步学习节点和连边的关系的运算。


贝叶斯网络之父Judea Pearl和他的贝叶斯网络


如果图结构以及他们每个节点和连边上的概率分布都是可学习的,那么只要有部分节点的数据观测信息,我们就可以推测出整个网络的观测信息,而且这是很有可能做到的。仔细看来,这个过程很有可能蕴藏着远比其看起来更深刻的意义:


具体而言,现在的技术可以做到对不可微分领域的学习,这与传统的深度学习非常不同,我们不需要结构是可微分的,这就大大拓展了深度学习的可应用范围。怎样连接不可微的部分呢?我们可以通过Policy Gradient算法完成这样的连接。例如,我们有一个复杂的神经网络,在最后一步我们需要按照概率做一个选择,而概率选择会将梯度信息的中断。而Policy Gradient则可以通过概率期望替代评价函数,并非每次都获得回报,而是通过多次采样的期望收益进行反向传播。这就使得离散的选择变成了可传递梯度的架构。


使用Policy Gradient连接中断的梯度信息


Policy Gradient模型也是有一些弱点的:他们很难优化和收敛。除Policy Gradient之外,最近也有一种新兴技术:Gumbel Softmax,他们会在选择的过程中加入Gumbel分布的随机数,导致可以获得梯度不断的概率分布信息,最终的梯度就可以被反向传播回来。这就使得我们可以在经典的Softmax操作上加入Gumbel随机数,并通过参数调节,使得梯度并不中断,从而连接中断的微分操作。


总之,现在的深度学习领域也可以被扩大到任何数据结构上,而且在更多的结构上,人们都已经有方法去解决可微分、可传递梯度的问题,此外,我们还可以看到,现在的图网络应用已经扩展到各种领域,很多原本各自平行发展的架构,现在都已经可以通过图网络进行融合,人们将原来的先验信息和图网络深度学习方法进行融合,这使得“任何事物都是可学习的”变成了可能。



更多内容,微信关注:六毛吧


相关内容
分享 2019-07-12 08:00:02

0个评论

文明上网理性发言,请遵守新闻评论服务协议