人工智能足够聪明,但似乎不善于与人类协作?
【线上活动】【科学连线第二十一期:对话诺奖——21世纪生命分子与人类福祉】10月30日16:00,中国数字科技馆将邀请诺贝尔化学奖获得者库尔特·维特里希,与大家共同认识“生命分子”,快来了解下!
来源:中国数字科技馆
研究显示,人类发现在一起玩合作游戏时,人工智能是一个令人沮丧的队友,这对“团队智能”提出了挑战。
在国际象棋和围棋等游戏领域,人工智能(AI)程序已经远远超过了世界上最好的棋手。这些“超凡”的人工智能是无与伦比的竞争对手,但与它们的合作可能比与人类竞争更困难。同样是人工智能技术,AI能与人友好相处吗?
在一项新的研究中,麻省理工学院林肯实验室的研究人员试图找出人类在与从未见过的队友一起玩合作性纸牌游戏Hanabi时,经过训练的高级人工智能模型的表现如何。在单盲实验中,参与者玩了两组的游戏:一个是以AI作为他们的队友,另一个是基于规则,被手动编程为以预定方式游戏的机器人。
结果令研究人员吃惊。不仅AI队友的成绩没有比基于规则的机器人好,而且人类一直讨厌与他们的AI队友一起玩。他们发现它是不可预测的、不可靠的、不值得信任的,即使在团队得分很高的情况下,他们也感到消极。详述这项研究的论文已被2021年的神经信息处理系统会议(NeurIPS)接受。
“这的确强调了创造客观上表现良好的AI和创造主观上被信任或喜欢的AI之间的细微区别。”该论文的共同作者、人工智能技术小组的研究员罗斯·艾伦说,“看起来这些事情是如此接近,但这项研究表明,这实际上是两个独立的问题。我们需要努力拆分它们。”
人类讨厌他们AI队友,这可能是设计这种技术的研究人员所担心的,因为有一天他们会与人类一起应对真正的挑战——比如防御导弹或进行复杂的手术。这种动态技术被称为“团队智能”,是人工智能研究的下一个前沿领域,它使用了一种被称为“强化学习”的特殊人工智能。
强化学习人工智能并没有被告知该采取哪些行动,而是通过一次又一次地尝试场景来发现哪些行动产生了最多的数字“奖励”。正是这项技术造就了超凡的国际象棋和围棋选手。与基于规则的算法不同,这些人工智能的编程并不能遵循“如果/那么”的语句,因为它们将要处理的人类任务的可能结果数量太多了(比如驾驶汽车的场景),无法通过编写代码来解决。
“强化学习是开发人工智能的一种更通用的方式。如果你能训练它学习如何下国际象棋,它就不一定会去开车。但只要有正确的数据,你也可以用同样的算法训练不同的AI驾驶汽车。”“从理论上讲,它的能力是无限的。”
如今,研究人员正在使用纸牌游戏Hanabi来测试为协作而开发的强化学习模型的性能,就像国际象棋几十年来一直作为测试竞争性人工智能的基准一样。
Hanabi是多人模式的纸牌游戏。玩家和队友一起按顺序堆叠相同花色的牌。然而,玩家看不到自己的牌,只能看到队友手中的牌。每个玩家都被严格限制了与队友交流的内容,从而让他们从自己的手上挑选出最好的牌然后堆叠起来。
事实上,当AI与AI配对时,这个AI团队取得了有史以来最高的Hanabi游戏得分。
“这个结果非常重要。”艾伦说,“我们认为,如果这些以前从未谋面的AI能够聚集在一起,好好发挥作用,那么我们应该能够培养那些也知道如何与AI很好地发挥作用的人类,他们也会做得很好。”“这就是为什么我们认为AI团队会客观地发挥得更好,也是为什么我们认为人类会喜欢它。”
这些期望都没有实现。客观地说,人工智能和基于规则的机器人之间的得分没有明显的统计学差异。而主观上,所有29名人类参与者在调查中都明显倾向于基于规则的机器人队友,而这些参与者并没有被告知他们和谁一起玩游戏。
人工智能技术和系统集团(AI Technology and Systems Group)的研究员、该论文作者之一Jaime Pena说:“一名参与者说,他们与AI的合作中压力太大了,以至于感到真的头疼了。”另一名参与者说,他们认为基于规则编程的机器人队友很笨,但可靠,而AI队友明显理解规则,但它的行动与团队并不协调一致。对他们来说,这是“给了糟糕的暗示,做出了糟糕的表现。”
非人类的创造力
这种认为人工智能“玩得不好”的看法与研究人员此前在强化学习工作中观察到的令人惊讶的行为有关。例如,2016年,当DeepMind的AlphaGo首次击败世界上最优秀的围棋选手之一时,AlphaGo走的最广受赞誉的一步是在第二局中走的37步,这一步不同寻常,以至于人类评论员认为这是一个错误。而后来的分析显示,这一举措实际上是经过精心计算的,被形容为“天才”。
当AI对手执行这些动作时,这些动作可能会受到称赞,但在团队中却不太可能得到认同。林肯实验室的研究人员发现,在这些紧密耦合的团队中,奇怪或看似不合逻辑的动作是破坏人类对人工智能队友信任的最糟糕因素。这样的举动不仅削弱了玩家对自己与AI队友合作程度的认知,也削弱了他们对与AI合作的渴望,尤其是当任何潜在的回报还不明显的时候。
那些认为自己是Hanabi专家的参与者(这项研究中的大多数人类参与者都这么认为)更容易放弃AI队友。这篇论文的作者,也是控制和自主系统工程小组的研究员Siu认为,这让人工智能开发者感到担忧,因为这项技术的关键用户很可能是相应领域的专家。
“假设你训练了一个超级智能的人工智能制导助手,用于导弹防御场景。你不会把它交给实习生,而是交给你们船上的专家因为他们有数十年的经验。所以,如果在游戏场景中存在强烈的专家偏见,那么它也很可能会出现在现实世界的操作中。”他补充道。
摸不准的人类偏好
研究人员指出,在这项研究中使用的人工智能不是为人类喜好而开发的。与大多数协作AI模型一样,这一模型旨在获得尽可能高的分数,它的成功是以其客观表现为基准的。
而艾伦说,如果研究人员不关注人类的主观偏好问题,“那么我们就不会创造出人类真正想要使用的人工智能。”“开发纯粹为提高某个数值的人工智能比较容易,而在这个人类偏好更加模糊的世界里,要想开发出能够发挥作用的人工智能,难度要大得多。”
解决这个更难的问题是MeRLin(任务就绪强化学习)项目的目标,该项目由林肯实验室技术办公室资助,与美国空军人工智能加速器和麻省理工学院电气工程和计算机科学系合作。研究是什么阻碍协作式AI技术跳出游戏领域,进入更混沌的现实世界。
研究人员认为,AI解释其行为的能力将让人类对其产生信任。这将是他们未来一年的工作重点。
“你可以想象我们重新进行实验,游戏结束后人类可以问,‘你为什么要做那个动作,我不懂?’”如果AI能够提供一些基于他们的行动的合理解释,那么也许人类会说,‘哦,这是一种奇怪的思考方式,但我现在明白了,’然后他们就会试着相信它。——即使我们没有改变人工智能的决策方式。”艾伦说。
就像比赛后的聚会,这种交流通常有助于人们建立友情和团队合作。
“也许这也是一种偏见。大多数人工智能团队不愿意在这些人类‘软问题’上耗时间。”Siu笑着补充说。
在AI和人类之间掌握像Hanabi这样的游戏,可以为未来的团队智能开辟各种可能性。希望研究人员能够早日缩小AI的表现和人类对它们喜欢程度的差距。
(独家编译:科幻世界)