随着机器学习模型变得越来越大、越来越复杂,它们需要更快、更节能的硬件来执行计算。传统的数字计算机正在奋力追赶。
模拟光神经网络可以执行与数字神经网络相同的任务,如图像分类或语音识别,但由于计算是使用光而不是电信号进行的,光神经网络可以在消耗更少的能量的情况下运行多倍。
然而,这些模拟设备容易出现硬件错误,从而降低计算精度。硬件部件的微观缺陷是造成这些错误的原因之一。在一个光神经网络中,有许多相互连接的组件,误差可以迅速积累。
即使使用纠错技术,由于组成光神经网络的设备的基本特性,一些误差是不可避免的。一个足够大到可以在现实世界中实现的网络将过于不精确而无效。
麻省理工学院的研究人员已经克服了这一障碍,找到了一种有效扩展光学神经网络的方法。通过在构成网络架构的光交换机中添加一个微小的硬件组件,他们甚至可以减少在设备中积累的不可纠正的错误。
他们的工作可能使一种超级快速、节能的模拟神经网络成为可能,它的功能与数字神经网络具有相同的准确性。有了这种技术,当一个光电路变得更大时,它的计算误差实际上减少了。
“这是值得注意的,因为它与模拟系统的直觉背道而驰,在模拟系统中,更大的电路应该有更高的误差,因此误差限制了可扩展性。这篇论文允许我们用一个明确的‘是’来解决这些系统的可扩展性问题,”首席作者Ryan Hamerly说,他是麻省理工学院电子研究实验室(RLE)和量子光子实验室的访问科学家,NTT研究中心的高级科学家。
Hamerly的共同作者是研究生Saumil Bandyopadhyay和资深作者Dirk Englund,他是麻省理工学院电气工程和计算机科学系(EECS)的副教授,量子光子实验室的负责人,以及RLE的成员。这项研究今天发表在《自然通讯》杂志上。
与光相乘
一个光神经网络是由许多相互连接的组件组成的,它们的功能就像可重编程、可调谐的镜子。这些可调谐的镜子被称为马赫-曾德尔测光仪(MZI)。神经网络数据被编码成光,光从激光发射到光神经网络。
一个典型的MZI包含两个反射镜和两个分束器。光进入一个MZI的顶部,在那里被分裂成两个相互干扰的部分,然后被第二个分束器重新组合,然后从底部反射到阵列中的下一个MZI。研究人员可以利用这些光信号的干扰进行复杂的线性代数运算,称为矩阵乘法,这是神经网络处理数据的方式。
但是,当光从一个设备移动到另一个设备时,每个MZI中可能发生的错误会迅速累积起来。可以通过提前识别错误并调优mzi来避免一些错误,这样早期的错误就会被数组中稍后的设备抵消。
“如果你知道错误是什么,这是一个非常简单的算法。但众所周知,这些错误很难确定,因为你只能访问芯片的输入和输出。”“这促使我们研究是否有可能创建无校准误差校正。”
哈默利和他的合作者此前展示了一种数学技
“即使有了错误校正,芯片的性能也有一个基本的限制。mzi在物理上无法实现需要配置的某些设置,”他说。
由于MZI的基本特性,在某些情况下,不可能调优设备,使所有光都从底部端口流到下一个MZI。如果设备在每一步都损失一小部分光,而阵列非常大,到最后将只剩下一点点电力。
“即使有了错误校正,芯片的性能也有一个基本的限制。mzi在物理上无法实现需要配置的某些设置,”他说。
因此,该团队开发了一种新型MZI。研究人员在设备的末端增加了一个额外的分束器,称其为3-MZI,因为它有三个分束器而不是两个。由于这种额外的分束器混合光线的方式,MZI更容易达到所需的设置,通过其底部端口发送所有光线。
重要的是,额外的分束器只有几微米大小,是一个无源组件,所以它不需要任何额外的布线。增加额外的分束器不会显著改变芯片的尺寸。
芯片越大,错误越少
当研究人员进行模拟测试他们的架构时,他们发现它可以消除许多影响准确性的不可纠正的错误。当光神经网络变得更大时,设备中的误差量实际上会下降——这与标准mzi设备的情况相反。
哈默利说,使用3- mzi,他们有可能创造出一个足够大的设备,可以用于商业用途,并且误差已经减少了20倍。
研究人员还专门针对相关误差开发了MZI设计的变体。这些都是由于制造缺陷造成的——如果一个芯片的厚度有轻微的错误,那么mzi可能都有相同的误差,所以误差都是相同的。他们找到了一种方法来改变MZI的配置,使其对这些类型的错误具有健壮性。该技术还增加了光神经网络的带宽,使其运行速度提高了三倍。
现在,他们已经通过模拟展示了这些技术,哈默利和他的合作者计划在物理硬件上测试这些方法,并继续朝着他们可以在现实世界中有效部署的光神经网络前进。
这项研究部分由国家科学基金会研究生研究奖学金和美国空军科学研究办公室资助。
注:本文由院校官方新闻直译,仅供参考,不代表指南者留学态度观点。