去年,麻省理工学院的研究人员宣布,他们已经建立了“液体”神经网络,灵感来自小型物种的大脑:一类灵活、健壮的机器学习模型,可以在工作中学习,并能适应不断变化的条件,用于现实世界的安全关键任务,如驾驶和飞行。这些“液体”神经网络的灵活性意味着增强我们与世界相连的血脉,为许多涉及时间序列数据的任务提供更好的决策,如大脑和心脏监测、天气预报和股票定价。
但随着神经元和突触数量的增加,这些模型的计算成本变得昂贵,需要笨拙的计算机程序来解决其潜在的复杂数学问题。所有这些数学问题,就像许多物理现象一样,用规模来解决变得更加困难,这意味着计算许多小步骤才能得到一个解决方案。
现在,同一组科学家发现了一种缓解这一瓶颈的方法,即通过突触求解两个神经元相互作用背后的微分方程,从而解锁一种新型快速高效的人工智能算法。这些模式具有与液体神经网络相同的特征——灵活、因果性、鲁棒性和可解释性——但速度要快几个数量级,而且可扩展。因此,这种类型的神经网络可以用于任何需要长期洞察数据的任务,因为即使经过训练,它们也非常紧凑和适应性强——而许多传统模型都是固定的。
该模型被称为“封闭连续时间”(CfC)神经网络,在一系列任务中优于最先进的同类模型,在从运动传感器识别人类活动、模拟步行机器人的物理动力学建模和基于事件的顺序图像处理方面具有更高的速度和性能。例如,在一项医疗预测任务中,新模型对8000名患者的采样速度要快220倍。
一篇关于这项工作的新论文今天发表在《自然机器智能》杂志上。
麻省理工学院计算机科学和人工智能实验室(CSAIL)主任、这篇新论文的资深作者Daniela Rus教授说:“我们称之为‘CfC’的新机器学习模型,用一个封闭的近似形式取代了定义神经元计算的微分方程,保留了液体网络的美丽属性,而不需要数值积分。”“CfC模型是因果的、紧凑的、可解释的,训练和预测是有效的。它们为安全关键应用打开了可信赖的机器学习之路。”
保持流动性
微分方程使我们能够计算世界的状态或一种现象的演变,但不是整个时间的全部——只是一步一步的。为了建模自然现象,了解过去和未来的行为,比如人类活动识别或机器人的路径,该团队从一袋数学技巧中找到了门票:一个“封闭形式”的解决方案,在一个单一的计算步骤中建模整个系统的整个描述。
根据他们的模型,人们可以在未来的任何时候计算这个方程,也可以在过去的任何时候计算这个方程。不仅如此,计算速度也快得多因为你不需要一步一步地解微分方程。
想象一下,一个端到端神经网络可以从安装在汽车上的摄像头接收驾驶信息。这个网络经过训练,可以产生输出,比如汽车的转向角度。2020年,该团队通过使用19个节点的液体神经网络解决了这一问题,因此19个神经元加上一个小型感知模块可以驾驶一辆汽车。微分方程描述了系统的每个节点。对于封闭形式的解,如果你把它替换到这个网络中,它会给出精确的行为,因为它很好地近似了系统的实际动力学。因此,他们可以用更少的神经元数量来解决这个问题,这意味着它将更快,计算成本更低。
这些模型可以接收时间序列(时间中发生的事件)的输入,可用于分类、控制汽车、移动人形机器人或预测金融和医疗事件。使用所有这些不同的模式,它还可以提高准确性、鲁棒性和性能,重要的是,还可以提高计算速度——这有时是一种权衡。
解决这个方程对推进自然和人工智能系统的研究都有深远的意义。“当我们对神经元和突触的通信有了一个封闭的描述时,我们就可以建立具有数十亿细胞的大脑计算模型,由于神经科学模型的高度计算复杂性,这一能力在今天是不可能实现的。封闭形式的方程可以促进这种大层次的模拟,因此为我们理解智能打开了新的研究途径,”麻省理工学院CSAIL研究附属机构Ramin Hasani说,他是这篇新论文的第一作者。
便携式学习
此外,早期的证据表明,Liquid CfC模型可以在一个环境中从视觉输入学习任务,并将它们学到的技能转移到一个全新的环境中,而无需额外的训练。这就是所谓的分布外泛化,这是人工智能研究中最基本的开放挑战之一。
“基于微分方程的神经网络系统很难解决,而且难以扩展到数百万乃至数十亿个参数。获得神经元如何相互作用的描述,而不仅仅是阈值,而是解决细胞之间的物理动力学,使我们能够建立更大规模的神经网络,”Hasani说。“这个框架可以帮助解决更复杂的机器学习任务——实现更好的表示学习——并应该成为未来任何嵌入式智能系统的基本构建模块。”
波音公司Aurora Flight Sciences的人工智能和机器学习小组负责人Sildomar Monteiro没有参与这篇论文,他说:“最近的神经网络架构,如神经ode和液体神经网络,都有由代表无限潜在状态的特定动力系统组成的隐藏层,而不是明确的层堆栈。”“这些隐式定义的模型显示了最先进的性能,而所需的参数比传统架构少得多。然而,由于训练和推理所需的高计算成本,它们的实际应用受到了限制。”他补充说,这篇论文“显示了这类神经网络在计算效率方面的显著改进……(并且)有潜力使更广泛的实际应用与安全关键的商业和国防系统相关。”
Hasani和麻省理工学院CSAIL的博士后Mathias Lechner在Rus的监督下撰写了这篇论文,与他们一起撰写论文的还有麻省理工学院CSAIL的博士后Alexander Amini;Lucas Liebenwein硕士'18,博士'21;麻省理工学院电气工程和计算机科学博士生、CSAIL会员Aaron Ray;丹麦奥尔堡大学计算机科学副教授Max Tschaikowski;以及维也纳大学数学教授Gerald Teschl。
注:本文由院校官方新闻直译,仅供参考,不代表指南者留学态度观点。