通过玩Hanabi的机器人FacebookAI达到了合作AI的里程碑
这家社交媒体巨头的人工智能研究部门Facebook AI今天宣布,它已经创建了一个机器人,该机器人可以玩Hanabi,这是一个涉及不完美信息的合作纸牌游戏,取得了近乎完美的结果,这是一个里程碑。
这个里程碑非常重要,因为诸如Hanabi之类的游戏代表了现实世界中的情境,在这种情况下,AI必须与人类一起参与复杂的任务,从人类行为中识别意图,并根据不完善的信息做出决策。
该机器人不仅在以前的AI系统上进行了改进,而且超出了精英人类玩家的能力,这是由对它进行评估的资深玩家判断得出的。
哈纳比(Hanabi)是一种复杂的合作式纸牌游戏,在游戏中像彩纸单人纸牌一样,涉及带有彩色数字的彩卡。“ Hanabi”这个名字取自日语单词“烟火”,这也与游戏的目的有关。
《 Hanabi》由法国游戏设计师Antoine Bauza的AsmodéeÉditions于2010年发行,这款游戏让玩家意识到别人的手而不是别人的手。玩家根据看到的内容可以与其他玩家共享的信息类型受到限制。然后,此信息将用于确定要玩哪些牌和弃什么牌。一轮胜利代表烟花表演的成功。
今年早些时候,Deepmind和Google Brain的AI研究人员将这款游戏作为AI研究的一个新领域,因为在多人游戏环境中,合作玩法和不完美的信息相结合。有效的Hanabi玩家必须建立关于其他玩家的“思想理论”,并使用有限的信息来了解意图。这种类型的预测能力和意图建模对于智能代理在由于缺乏理解或对信息的访问较差而导致沟通困难的情况下与人类合作时必不可少。
该机器人通过使用类似于Pluribus的深度限制搜索技术的实时搜索方法来实现其超人能力,Pluribus是一种扑克游戏机器人,可以在六人无限制德州扑克中击败职业玩家。
用于步步高,国际象棋和围棋等完美信息游戏的搜索算法在诸如Hanabi之类的不完善信息游戏中不起作用。在象棋之类的游戏中,机器人可以根据了解棋盘上每个棋子的位置和能力来模拟所有可能的结果,但是使用Hanabi时,机器人必须考虑许多可能的“世界状态”,这些状态在制作时不会立即显现出来。决定。
为此,Facebook AI应用了一种多代理搜索概念的搜索策略,该机器人试图让机器人根据可用的信息为队友的搜索决策建模。这增加了其搜索算法考虑其他玩家意图的可能性,这些玩家先前曾暗示过哪些牌在游戏场上可见。
以前在AI研究领域,大多数突破都集中在对抗性零和环境上。尽管这对于开发更好的AI算法很有用,但是这些情况并不适合大多数计算机人机交互,例如那些将由消费者和企业使用的交互,这将更加依赖于人与机器智能之间的合作。
展望未来,Facebook AI研究人员希望将此新AI模型应用于其他合作环境和应用程序,例如既不完全合作也不完全竞争的应用程序。
潜在的示例包括与人进行谈判,协调人与人之间的交流,基于了解意图而提供信息,例如智能代理建议,以及AI必须访问多个信息源并推断意图的其他情况。