登录遇到问题
Q:长时间接收不到验证码怎么办?
A:您可以拨打我们的客服热线400-183-1832进行语音辅助
没找到相关问题?点此联系客服
选择国家地区
指南者留学logo
指南者留学
选校/定位/规划 必备工具
打开App
麻省理工学院 | 解决了一个机器学习之谜
指南者留学 2023-02-07 19:33:53
阅读量:1304

像OpenAI的GPT-3这样的大型语言模型是巨大的神经网络,可以生成类似人类的文本,从诗歌到编程代码。这些机器学习模型使用大量互联网数据进行训练,获取一小部分输入文本,然后预测接下来可能出现的文本。

 

但这并不是这些模型所能做的全部。研究人员正在探索一种被称为语境学习的奇怪现象,在这种现象中,一个大型语言模型在只看到几个例子后就学会了完成一项任务——尽管它没有接受过这项任务的训练。例如,有人可以向模型输入几个例句和他们的情绪(积极的或消极的),然后用一个新句子提示它,模型就可以给出正确的情绪。

 

通常,像GPT-3这样的机器学习模型需要用新数据重新训练来完成这项新任务。在这个训练过程中,模型在处理新信息以学习任务时更新其参数。但是在上下文学习中,模型的参数不会更新,所以看起来模型在没有学习任何东西的情况下学习了一项新任务。

 

来自麻省理工学院、谷歌Research和斯坦福大学的科学家们正在努力解开这个谜团。他们研究了与大型语言模型非常相似的模型,看看它们如何在不更新参数的情况下进行学习。

 

研究人员的理论结果表明,这些庞大的神经网络模型能够包含更小、更简单的线性模型。然后,大模型可以实现一个简单的学习算法来训练这个较小的线性模型来完成新任务,只使用大模型中已经包含的信息。它的参数保持不变。

 

Ekin Akyürek是一名计算机科学研究生,也是一篇探索这一现象的论文的主要作者,他说,这是理解上下文学习背后机制的重要一步,这项研究为更多探索这些大型模型可以实现的学习算法打开了大门。随着对语境学习的更好理解,研究人员可以让模型完成新的任务,而不需要昂贵的再训练。

 

“通常,如果你想对这些模型进行微调,你需要收集特定领域的数据并做一些复杂的工程。但现在我们只要给它一个输入,五个例子,它就完成了我们想要的。所以语境学习是一个非常令人兴奋的现象。”Akyürek说。

 

与Akyürek一起发表论文的还有谷歌Brain的研究科学家、阿尔伯塔大学(University of Alberta)计算科学教授戴尔·舒尔曼斯(Dale Schuurmans);以及资深作者Jacob Andreas,麻省理工学院电气工程和计算机科学系X联盟助理教授,麻省理工学院计算机科学和人工智能实验室(CSAIL)的成员;斯坦福大学计算机科学与统计学助理教授马腾宇(Tengyu Ma);以及谷歌Brain的首席科学家和研究总监Danny Zhou。这项研究将在学习表征国际会议上发表。

 

模型中的模型

 

Akyürek说,在机器学习研究界,许多科学家已经开始相信大型语言模型可以进行上下文学习,因为它们是如何训练的。

 

例如,GPT-3拥有数千亿个参数,通过阅读互联网上的大量文本(从维基百科文章到Reddit帖子)进行训练。因此,当有人展示一个新任务的模型示例时,它可能已经看到了非常相似的东西,因为它的训练数据集包括来自数十亿个网站的文本。它会重复在训练中看到的模式,而不是学习执行新的任务。

 

Akyürek假设情境学习者不仅仅是在匹配之前看到的模式,而是实际上在学习执行新的任务。他和其他人尝试用合成数据给这些模型提示,这是他们以前在任何地方都看不到的,他们发现模型仍然可以从几个例子中学习。Akyürek和他的同事们认为,也许这些神经网络模型内部有更小的机器学习模型,这些模型可以训练来完成一项新任务。

 

他说:“这可以解释我们在这些大型模型中看到的几乎所有学习现象。”

 

为了验证这一假设,研究人员使用了一种称为变压器的神经网络模型,该模型具有与GPT-3相同的架构,但经过了专门的上下文学习训练。

 

通过探索这个变压器的架构,他们从理论上证明了它可以在隐藏状态下编写线性模型。神经网络由处理数据的多层相互连接的节点组成。隐藏状态是输入层和输出层之间的层。

 

他们的数学计算表明,这个线性模型写在变压器的最早期层的某个地方。的交易

 

他们的数学计算表明,这个线性模型写在变压器的最早期层的某个地方。然后转换器可以通过实现简单的学习算法来更新线性模型。

 

从本质上讲,这个模型模拟和训练的是一个更小的模型。

 

探测隐藏层

 

研究人员通过探测实验来探索这一假设,他们在变压器的隐藏层中寻找并试图恢复一定的数量。

 

“在这种情况下,我们试图恢复线性模型的实际解,我们可以证明参数是在隐藏状态下写的。这意味着线性模型是存在的,”他说。

 

在这一理论工作的基础上,研究人员可能能够通过向神经网络添加两层来使变压器执行上下文学习。Akyürek提醒说,在这成为可能之前,还有许多技术细节需要解决,但它可以帮助工程师创建可以完成新任务的模型,而不需要使用新数据进行再训练。

 

“这篇论文阐明了现代大型语言模型最显著的特性之一——它们从输入数据中学习的能力,无需明确的训练。使用线性回归的简化案例,作者从理论上展示了模型如何在读取输入时实现标准学习算法,并从经验上展示了哪种学习算法最符合他们观察到的行为,”Facebook AI research的研究科学家迈克·刘易斯(Mike Lewis)说,他没有参与这项工作。“这些结果是理解模型如何学习更复杂任务的垫脚石,并将帮助研究人员为语言模型设计更好的训练方法,以进一步提高它们的表现。”

 

接下来,Akyürek计划继续探索具有比他们在这项工作中研究的线性模型更复杂的功能的上下文学习。他们还可以将这些实验应用于大型语言模型,看看他们的行为是否也可以用简单的学习算法来描述。此外,他还想更深入地挖掘可以实现上下文内学习的预训练数据类型。

 

“通过这项工作,人们现在可以想象这些模型如何从样本中学习。所以,我希望它能改变一些人对语境学习的看法。”Akyürek说。“这些模型并不像人们想象的那么愚蠢。他们不只是记住这些任务。他们可以学习新的任务,我们已经证明了这是可以做到的。”

 

注:本文由院校官方新闻直译,仅供参考,不代表指南者留学态度观点。

老师
我是 的搭档
联系我
已为您分配留学咨询顾问老师 ,请等待顾问老师和您联系。
如需更换老师进行咨询,请联系客服
400-183-1832
预约咨询
电话咨询