想象两支球队在足球场摆好架势。玩家可以为了达成一个目标而合作,也可以与其他利益冲突的玩家竞争。游戏就是这么玩的。
创造能够像人类一样学习竞争和合作的人工智能代理仍然是一个棘手的问题。一个关键的挑战是,当人工智能智能体同时学习时,如何使它们能够预测其他智能体的未来行为。
由于这一问题的复杂性,目前的方法往往是短视的;代理只能猜测队友或竞争者接下来的几个动作,这导致了长期的糟糕表现。
来自麻省理工学院、MIT- ibm沃森人工智能实验室和其他地方的研究人员开发了一种新的方法,使人工智能代理具有远见。
他们的机器学习框架使合作或竞争的AI代理能够在时间接近无穷大时考虑其他代理将做什么,而不仅仅是考虑接下来的几个步骤。然后,代理相应地调整自己的行为,以影响其他代理的未来行为,并达到一个最佳的、长期的解决方案。
这一框架可以被一组自动驾驶无人机用来在茂密的森林中寻找走失的徒步旅行者,也可以被自动驾驶汽车用来通过预测在繁忙的高速公路上行驶的其他车辆的未来动向来努力保证乘客的安全。
“当人工智能代理在合作或竞争时,最重要的是它们的行为何时在未来的某个时刻趋于一致。在这个过程中有很多短暂的行为,从长远来看并没有太大影响。达到这种聚合行为是我们真正关心的,我们现在有一个数学方法来实现它,”麻省理工学院信息和决策系统实验室(LIDS)的研究生Dong-Ki Kim说,他是描述该框架的一篇论文的主要作者。
资深作者乔纳森·p·豪,理查德·c·麦克劳林航空航天教授,麻省理工学院- ibm沃森人工智能实验室成员。共同作者包括来自麻省理工-IBM沃森人工智能实验室、IBM研究中心、米拉-魁北克人工智能研究所和牛津大学的其他人。这项研究将在神经信息处理系统会议上发表。
代理越多,问题就越多
研究人员专注于一个被称为多主体强化学习的问题。强化学习是一种机器学习形式,AI代理通过试错进行学习。研究人员对帮助其实现目标的“良好”行为给予奖励。代理会调整自己的行为以最大化奖励,直到最终成为某项任务的专家。
但当许多合作或竞争主体同时学习时,事情就会变得越来越复杂。随着代理考虑其他代理的更多未来步骤,以及它们自己的行为如何影响其他代理,这个问题很快就需要太多的计算能力来有效解决。这就是为什么其他方法只关注短期。
“人工智能确实想要考虑游戏的结局,但他们不知道游戏什么时候结束。他们需要思考如何不断调整自己的行为,以便在未来的某个遥远时刻赢得胜利。我们的论文实质上提出了一个新的目标,使人工智能能够思考无限,”金说。
但由于不可能在算法中插入无穷大,研究人员设计了他们的系统,让代理关注未来的一个点,在这个点上,它们的行为将与其他代理的行为收敛,这被称为平衡。一个平衡点决定了智能体的长期性能,在多智能体的情况下可以存在多个平衡。因此,一个有效的agent会积极地影响其他agent的未来行为,使它们从agent的角度达到一个理想的平衡。如果所有的因素相互影响,它们就会趋同于一个研究人员称之为“主动平衡”的一般概念。
他们开发的机器学习框架被称为FURTHER(代表“充分加强主动影响与平均奖励”),使代理能够学习如何在与其他代理交互时调整自己的行为,以实现这种主动平衡。
FURTHER使用两个机器学习模块来实现这一点。第一个是推理模块,它使一个代理能够猜测其他代理的未来行为和它们使用的学习算法,仅基于它们之前的行为。
这些信息被输入到强化学习模块中,代理使用该模块来调整其行为并影响其他代理,使其获得的奖励最大化。
“挑战在于思考无限。我们必须使用许多不同的数学工具来实现这一点,并做一些假设以使其在实践中工作,”Kim说。
赢得长期的胜利
他们在几个不同的场景中,用其他多智能体强化学习框架测试了他们的方法,包括一对机器人进行相扑式的比赛,以及两个25智能体团队之间的战斗。在这两种情况下,使用FURTHER的AI代理更容易赢得游戏。
由于他们的方法是分散的,这意味着代理独立学习赢得游戏,它也比其他需要中央计算机来控制代理的方法更具可扩展性,Kim解释道。
研究人员使用游戏来测试他们的方法,但FURTHER可以用来解决任何类型的多主体问题。例如,当许多相互作用的主体的行为和利益随时间而变化时,经济学家可以应用它来寻求制定合理的政策。
经济学是金特别感兴趣的一门学科。他还希望更深入地挖掘主动均衡的概念,并继续加强FURTHER框架。
这项研究的部分资金来自麻省理工学院- ibm沃森人工智能实验室。
注:本文由院校官方新闻直译,仅供参考,不代表指南者留学态度观点。