登录遇到问题
Q:长时间接收不到验证码怎么办?
A:您可以拨打我们的客服热线400-183-1832进行语音辅助
没找到相关问题?点此联系客服
选择国家地区
指南者留学logo
指南者留学
选校/定位/规划 必备工具
打开App
麻省理工学院 | 确保人工智能以适当的好奇心工作
指南者留学 2022-11-15 14:18:07
阅读量:1327

这是一个和时间一样古老的困境。周五晚上到了,你正试着选一家餐厅吃晚餐。你是去你最喜欢的酒吧,还是去一家新的餐馆,希望能发现一些更好的东西?有可能,但这种好奇心也有风险:如果你尝试新的选择,食物可能会更糟糕。另一方面,如果你坚持你所知道的行之有效的方法,你就不会走出自己狭窄的道路。

 

好奇心驱使人工智能去探索世界,现在有无限的用例——自主导航、机器人决策、优化健康结果等等。在某些情况下,机器使用“强化学习”来完成一个目标,即AI代理迭代地从良好行为的奖励和不良行为的惩罚中学习。就像人类在选择餐厅时所面临的困境一样,这些代理也在努力平衡花在发现更好的行动(探索)和花在过去导致高回报的行动(开发)上的时间。太多的好奇心会分散代理做出好的决策的注意力,而太少的好奇心则意味着代理永远不会发现好的决策。

 

为了让人工智能代理具备适当的好奇心,麻省理工学院(MIT)不可思议人工智能实验室(impossible AI Laboratory)和计算机科学与人工智能实验室(CSAIL)的研究人员创建了一种算法,克服了人工智能过于“好奇”和被给定任务分心的问题。当需要的时候,他们的算法会自动增加好奇心,而如果代理从环境得到足够的监督,知道该做什么,就会抑制好奇心。

 

在对60多款电子游戏进行测试后,该算法能够成功地完成困难和简单的探索任务,而之前的算法只能单独解决一个困难或简单的领域。通过这种方法,人工智能代理使用更少的数据来学习决策规则,使激励最大化。

 

“如果你很好地掌握了探索和利用之间的平衡,你就能更快地学会正确的决策规则——如果你做得不够好,就需要大量的数据,这可能意味着次优的医疗,网站的利润更低,以及机器人不会学习做正确的事情,”麻省理工学院电子工程和计算机科学(EECS)助理教授Pulkit Agrawal说,他是不可可能人工智能实验室的主任,也是监督该研究的CSAIL下属机构。“想象一下,一个网站试图找出其内容的设计或布局,以最大化销售。如果勘探开发做得不好,收敛到正确的网站设计或正确的网站布局将需要很长时间,这意味着利润的损失。或者在卫生保健环境中,比如Covid-19,可能需要做出一系列决定来治疗患者,如果你想使用决策算法,它们需要快速有效地学习——你不想在治疗大量患者时得到一个次优解决方案。我们希望这项工作能应用于现实世界中类似的问题。”

 

很难囊括好奇心心理基础的细微差别;挑战寻求行为的潜在神经关联是一个知之甚少的现象。对这种行为进行分类的尝试跨越了多个研究,这些研究深入研究了我们的冲动、剥夺敏感性、社交和压力耐受力。

 

在强化学习中,这一过程在情感上被“修剪”,剥离到最基本的部分,但在技术方面很复杂。从本质上说,代理应该只在没有足够的监督来尝试不同的事物时才感到好奇,如果有监督,它必须调整好奇心并降低好奇心。

 

因为大部分游戏都是在奇幻环境中奔跑,寻找奖励并执行一系列行动以实现某些目标的小代理,所以这似乎是研究人员算法的逻辑试验台。在实验中,研究人员将《马里奥赛车》和《蒙特祖玛的复仇》这类游戏分为两类:一类是监管较少的游戏,这意味着代理人的指导较少,被认为是“难”探索游戏;另一类是监管较密集的游戏,被认为是“容易”探索游戏。

 

假设在《马里奥赛车》中,你只移除所有奖励,所以你不知道敌人何时会消灭你。当你收集硬币或跳过管道时,你不会得到任何奖励。代理最终只会被告知它做得有多好。这将是一个监管稀疏的例子。在这种情况下,激发好奇心的算法表现得非常好。

 

但是现在,假设代理被提供了严格的监督——跳过管道、收集硬币和消灭敌人的奖励。在这里,一个没有好奇心的算法表现得非常好,因为它经常得到奖励。但如果你采用同样使用好奇心的算法,它会学习得很慢。这是因为好奇的代理可能会尝试以不同的方式快速奔跑,四处跳舞,去到游戏屏幕的每个部分——这些事情很有趣,但无助于代理在游戏中取得成功。然而,该团队的算法始终表现良好,不管它在什么环境中。

 

未来的工作可能涉及到多年来让心理学家既高兴又困扰的探索:好奇心的合适度量标准——没有人真正知道用数学定义好奇心的正确方法。

 

“在一个新问题上获得一致的良好表现是极具挑战性的——因此,通过改进探索算法,我们可以节省您为您感兴趣的问题调优算法的精力,”EECS博士生、CSAIL会员张卫红(音译)说,他与Eric Chen ' 20,孟' 21共同撰写了一篇关于这项工作的新论文。“我们需要好奇心来解决极具挑战性的问题,但在某些问题上,好奇心会影响表现。我们提出了一种算法,消除了调整勘探和开发平衡的负担。以前要花一周时间才能成功解决的问题,有了这个新算法,我们可以在几个小时内得到满意的结果。”

“当前人工智能和认知科学面临的最大挑战之一是如何平衡探索和利用——搜索信息与搜索奖励。加州大学伯克利分校(University of California at Berkeley)的心理学教授兼哲学副教授艾莉森·戈普尼克(Alison Gopnik)指出,“孩子们可以无缝地做到这一点,但在计算上存在挑战。”她没有参与该项目。“这篇论文使用了令人印象深刻的新技术来自动完成这一任务,设计了一个可以系统地平衡对世界的好奇心和对奖励的渴望的代理,(因此)向让人工智能代理(几乎)像孩子一样聪明又迈进了一步。”

 

“像好奇心这样的内在奖励是引导代理发现有用的多样化行为的基础,但这不应该以完成给定任务为代价。这是人工智能中的一个重要问题,这篇论文提供了一种平衡这种权衡的方法,”卡内基梅隆大学的助理教授迪帕克·帕塔克补充说,他也没有参与这项工作。“看到这种方法如何从游戏扩展到现实世界的机器人代理将是很有趣的。”

 

陈、洪和阿格拉瓦尔与阿尔托大学助理教授、达姆施塔特大学智能自主系统小组研究负责人Joni Pajarinen共同撰写了这篇论文。该研究部分得到了MIT-IBM沃森人工智能实验室、DARPA机器常识项目、美国空军研究实验室和美国空军人工智能加速器的陆军研究室的支持。该论文将在神经信息与处理系统(NeurIPS) 2022上发表。

 

注:本文由院校官方新闻直译,仅供参考,不代表指南者留学态度观点。

老师
我是 的搭档
联系我
已为您分配留学咨询顾问老师 ,请等待顾问老师和您联系。
如需更换老师进行咨询,请联系客服
400-183-1832
在线咨询
电话咨询