为了让人工智能发挥其潜力——将人类从平凡的任务中解放出来,让生活更轻松,并最终发明出全新的解决方案来解决我们的问题——计算机需要在人类擅长的两件事上超越我们:观察我们周围的世界 并理解我们的语言。
普林斯顿大学计算机科学系主任、戈登 Y.S. 吴工学教授。 “我们将这些领域称为计算机视觉和自然语言处理。 这两个领域是独立发展的,但我们的教师正在以有趣的方式将它们结合在一起。”
近年来,普林斯顿及其他地区的研究人员在这两个领域取得了重大进展,开启了各种应用的快速发展。 “在过去十年中发生了巨大的转变,”从事计算机视觉工作的计算机科学助理教授奥尔加·鲁萨科夫斯基 (Olga Russakovsky) 说。 “我们正在进入真正有效的第二个十年。”
看我们的世界
提高我们捕获和分析图像的能力是将人类甚至超人的视觉能力带入手机、机器人和健康设备等机器的重要组成部分。
费利克斯·海德 (Felix Heide) 是研究人员之一,他正在开发人工智能方法来改进计算机的眼睛,即相机。 他的目标是帮助相机进化到视觉能力达到或超过人类或动物的程度。
“相机是现实世界和机器之间无处不在的接口。”从事人工智能、物理和光学接口工作的计算机科学助理教授海德说。
海德和华盛顿大学的合作者最近制造了一个相机,它非常小,只有一粒盐那么大。 该设备由超过一百万个纳米级圆柱柱组成,这些柱与光相互作用以产生图像。 该相机在同一个计算机芯片上结合了图像处理和软件。
该团队使用 AI 优化柱子的形状和位置以调节光线,以便在使用 AI 重建和细化生成的图像时记录最佳图片。 该团队的方法依赖于一种被称为人工神经网络的人工智能,它以大脑的神经元和连接为模型,并结合光传输物理学模型。 模型中的神经元实际上是称为节点的计算机算法,它们接收信息、执行计算并产生输出。
“将物理模型与人工神经网络相结合是设计相机的新范例,”海德说。 “我们能够使用人工智能在光学方面开辟一个完全不同的设计空间。”
海德说,这种人工智能驱动的相机未来的应用非常广泛。 将数以千计的此类摄像机排列成阵列可以将整个表面变成全场景摄像机。 这些微型相机可以内置于超薄内窥镜中,用于从体内进行医学诊断。 通过将成像和信息处理结合在一个设备中,这些相机可能是安全应用的理想选择。
人工智能还帮助我们看到以前从未见过的物体,例如单个蛋白质、生命的组成部分,有时还包括阿尔茨海默氏症等疾病的病因。 即使使用最强大的设备,蛋白质也太小而无法详细观察。 人工智能可以改变这一点。
新任计算机科学助理教授 Ellen Zhong 开发了机器学习技术来获取蛋白质的三维结构。 她处理使用冷冻电子显微镜捕获的图像,这包括首先冷冻蛋白质以平息它们的振动,然后再使用电子显微镜对样品进行成像。
生成的图像包含一系列来自各个方向的分子二维快照。 然后研究人员使用复杂的算法来合成不同的视图并将 3-D 结构拼接在一起,这可以揭示这些复杂分子中原子的位置。
Zhong 使用机器学习来理解冷冻电镜图像中复杂数据的模式,帮助研究人员比以往任何时候都更接近蛋白质的准确表示。 但她并不打算就此止步。
“我的研究中一个令人兴奋的前瞻性领域是能够可视化完整的细胞而不是单个蛋白质,”钟说。 “现在,我们可以进行 3-D 重建以可视化单个分子,但这只是拼图的一个孤立部分。”
Zhong 是众多研究人员之一,他们认为人工智能可能是解决更大目标的重要关键,即了解单个蛋白质如何在细胞景观中相互作用。 通过更好地了解这些相互作用,生物学家可以帮助为许多涉及蛋白质功能障碍的疾病创造新的疗法。
AI 不仅帮助我们看到新事物,还帮助我们通过改进自然语言处理进行交流。 这些系统落后于计算机翻译语言、将语音转换为文本和回答口头问题的能力。
帮助计算机理解我们
普林斯顿的自然语言处理小组旨在让计算机有效地理解和使用人类语言。 该小组由两位计算机科学助理教授 Danqi Chen 和 Karthik Narasimhan 发起,成员包括普林斯顿大学 Charles C. Fitzmorris 计算机科学教授 Sanjeev Arora。
Chen 正在致力于开发能够通过书面和口头语言交互获取人类知识的机器,并且能够在很少或没有外部指导的情况下理解、推理和做出决策和判断。
“我研究了一些基本问题,比如我们应该如何在神经网络中表示文本,我们应该如何提取和编码文本中的信息,以及我们如何检索相关信息并将其用于下游应用程序,例如问答和对话系统。”陈说。
在过去的两三年中,自然语言处理领域通过引入大型语言模型 (LLM) 实现了转型,通过简单的自然语言指令开启了开放式人机交互的新时代。 尽管令人兴奋,但这些 LLM 可能包含数千亿个参数,使它们比以前的模型大一千倍。
训练这些模型需要付出巨大的财务和环境成本,因此仅限于少数大公司和资金充足的研究实验室。 “我目前正在解决的一个主要问题是如何缩小这些模型并开发更有效的解决方案来训练和调整这些非常大的模型。”陈说。
Narasimhan 正在开发可以通过与环境交互来获取语言的自主系统。 他还希望提高计算机接收文本信息并利用它来推动决策的能力。
Narasimhan 说:“当今大多数自然语言处理模型都专注于仅从文本中学习语义表示,但对自然语言的深入理解需要 AI 系统的情境和上下文意识来解决歧义、避免误解并提供适当的回应。” “我们的实验室专注于具身语言理解,目标是教机器在交互式、多模式环境中理解和使用语言。”
Narasimhan 的团队还开发了新方法,让计算机通过“做”和“读”的结合来学习——就像人类一样——这与强化学习等主要人工智能范式的“反复试验”性质相反,强化学习是一种基于训练方法 关于奖励期望的行为。 例如,假设您决定将网球作为一项运动。 你可以在没有任何外部输入的情况下每天在球场上击球并慢慢提高,但更有可能你会从互联网上获得提示或通过教练的口头反馈来获得更快的进步。
“我想象一个不太遥远的未来,人工智能系统可以类似地使用语言作为一种方式,通过书籍、手册和互联网从人类经验中获得提炼的知识和指导。”Narasimhan 说。
在过去的几年里,Arora 一直被以下问题所吸引:AI 是如何工作的,为什么某些 AI 方法比其他方法更有效,以及 AI 系统在学习时会发生什么。 Arora 有兴趣弄清楚神经网络在处理周围世界时内部发生了什么。
“我的工作是在更严格和数学的层面上理解人工神经网络训练内部发生的事情。”阿罗拉说。 “我们说我们的目标是打开黑匣子。” 这将有助于理解神经网络给出的答案,也可能导致更好的训练算法和更强大的学习者。
通过了解神经网络运行时会发生什么,Arora 希望帮助工程师更好地规划和设计他们的算法。
让人工智能更聪明
人工智能在很多方面已经赶上了人类,在识别熟悉的图像、翻译语言和将文本转换为语音方面变得和我们一样出色。 人工智能可以比大多数人更快地完成这些事情。 但人工智能真的能帮助人们创造和创新吗?
在 Ryan Adams 的实验室中,研究人员追寻的问题是,他们能否使用 AI 设计新事物?
“我们有合成新图片和文本的生成模型。”计算机科学教授兼普林斯顿大学统计学和机器学习本科项目主任亚当斯解释说。 “但我们也在研究如何使用人工智能为现实世界的物体创造新型设计,例如,发明新的抗生素分子、新的机械系统或新材料。 不仅仅是设计,我们还希望人工智能帮助我们制造这些东西。”
Adams 研究的一项最新创新是将 AI 模型应用于计算机辅助设计 (CAD) 工具。 Adams 和他的团队创建了 AI 软件,该软件经过人工设计的 CAD 草图训练,可以自行自动提出新发明的建议。 “想想使用 Microsoft Word,当你拼错某些内容时,它会自动更正或建议新文本,”Adams 解释道。 “如果我们可以为设计做到这一点呢?”
在他办公室的大厅对面,亚当斯有一个实验室空间,里面摆满了机床、3D 打印机和激光切割机。 这是一个高度物理化的设置,不像大多数 AI 实验室,在这些实验室中,研究人员在电脑屏幕后完成大部分工作。 “我们有一些有趣的混乱。”他说。
Adams 认为他和他的同事在他们的研究中所做的最有影响力的事情之一就是深入思考物理学和人工智能之间的相互作用。 “发明是关于物理体现的。”亚当斯说。 “这是关于制造东西,你不能对它背后的物理学视而不见。”
Adji Bousso Dieng 也在深入思考科学与人工智能的交集——但方式不同。
Dieng 领导 Vertaix,这是普林斯顿的一个跨学科研究实验室,致力于人工智能和自然科学的交叉领域。
计算机科学助理教授迪昂说:“我们正在研究科学发现过程中涉及的每一步,并根据该过程中出现的问题开发人工智能方法。”
该发现过程的一个核心部分是确保机器学习算法能够生成包含我们在自然世界中看到的多样性的解决方案或结果。 Dieng 和她的合作者 Dan Friedman,博士。 普林斯顿计算机科学系的学生,利用生态学领域中使用的多样性定义来开发一种称为 Vendi 分数的指标来衡量模型的多样性。
Vendi Score 着眼于样本中元素之间的相似性——在一个例子中,是大量气味分子——并返回分子之间的多样性或差异程度的分数。 例如,如果所有气味分子都属于“草本”类别,则得分会低于显示更多气味类别的情况。
与机器学习中的其他多样性估计不同,该分数可用于任何可以定义相似性的问题。 它是无人监督的,因为它不需要人为数据集添加标签。 “为了让人工智能能够发现,我们应该能够衡量多样性并将其纳入我们开发的方法中,”Dieng 说。
Dieng 说,科学界对 AI 的兴趣正在迅速增长。 “10 年后,人工智能的最大影响将来自科学。”
在谷歌人工智能实验室,普林斯顿大学和谷歌研究人员合作的校园附近的研究中心,计算机科学教授埃拉德哈赞和他的团队正在应对挑战,例如控制患者的呼吸机以及机器控制技术的其他情况 . 为此,他们正在开发新的算法来改进机器学习方法并提高它们的效率。
已知最快的神经网络训练方法源于 Hazan 的优化工作,并广泛应用于学术界和工业界。 Hazan 目前的研究涉及控制领域,目标是使用可观察到的信号来操纵物理系统,例如医用呼吸机。 “控制领域可以追溯到几十年前,甚至几个世纪前,”Hazan 说。 “我们对它的看法是新的,因为我们正在使用人工智能和深度学习,它们是新工具并产生新方法。”
在他的实验室里,他和他的合作者正在研究开发训练神经网络以某种方式执行的方法。 例如,Hazan 的方法可用于控制自动驾驶汽车和机器人。 “一般来说,控制领域的创新对机器人技术有影响,”Hazan 说。 “控制理论涉及一般性地操纵物理系统。 它可以是呼吸机、机器人、无人机或自动驾驶汽车。”
扩大社区
人工智能的快速采用必须伴随着解决人工智能算法中有关种族和性别偏见的问题。
Russakovsky 是该领域的研究人员之一,致力于从工程角度解决伦理问题。 “我们开始问——作为工程师,作为这些系统的构建者——我们能做些什么来确保它们对所有人都同样准确,”Russakovsky 说。
先前的研究发现了人工智能驱动过程中嵌入的显着偏见。 例如,面部识别系统在识别肤色较浅的男性和肤色较深的女性时表现得更加准确。
Russakovsky 和她的团队正在为这些问题设计解决方案。 她帮助构建了一个名为 REVISE 的工具,该工具分析视觉数据集是否存在偏见迹象,包括种族和性别偏见。
“这是一个非常复杂的空间,从技术的角度来看它有点像第 22 条军规,”Russakovsky 说。 “你必须设计技术解决方案,但你设计的任何技术解决方案本质上都是对潜在问题的简化。”
尽管面临挑战,Russakovsky 对 AI 取得的进步感到兴奋。 既然研究人员知道了这些视觉学习应用程序在现实世界中的表现如何,他们希望进一步突破它们实际可能达到的极限。 “现在的问题是:我们可以解决的新领域是什么?” 鲁萨科夫斯基说。
随着整个大学的研究人员不断创新并进入下一代机器学习,吸引下一代 AI 研究人员到普林斯顿将非常重要。 合作机会只会越来越多。 就 Adams 而言,他认为大学有能力在 AI 领域实现甚至在去年似乎不可能的事情。 “我们在规模和质量之间取得了这种平衡,”亚当斯说。
亚当斯说,普林斯顿足够小,人工智能研究人员可以步行穿过校园与机器人技术的工程师和研究人员合作,同时提供世界一流的教学和研究。 “普林斯顿在将事物带到月球上绝对具有独特的优势。
注:本文由院校官方新闻直译,仅供参考,不代表指南者留学态度观点。