据新华社报道,美国卡内基梅隆大学设计出了新的智能系统Pluribus,它能在六人无限注德州扑克中击败多名世界顶尖选手,成为机器在多人游戏中战胜人类的一个里程碑。目前相关研究发表在7月12日的《科学》杂志上。
据悉,参与竞赛的人类都是顶尖扑克高手,他们都赢得了至少100万美元的扑克玩家,例如2000年世界扑克锦标赛冠军克里斯“耶稣”弗格森和4次世界扑克巡回赛冠军达伦埃利亚斯。Pluribus就像之前的Alpha Go一样,通过对自己的比赛进行训练来实现其成果。研究人员表示,训练超过20小时可以产生比顶级人类玩家更好的AI玩家。
值得一提的是,Pluribus整合了一种新的在线搜索算法,可以通过搜索前面的几步而不是只搜索到游戏结束来有效地评估其决策。此外,Pluribus还利用了速度更快的新型self-play非完美信息游戏算法。综上所述,这些改进使得使用极少的处理能力和内存来训练Pluribus成为可能。训练所用的云计算资源总价值还不到150美元。这种高效与最近其他人工智能里程碑项目形成了鲜明对比,后者的训练往往要花费数百万美元的计算资源。
在德州扑克中,由于每一回合可以采取的行动实在太多,为了减少问题的复杂度,研究者采用了行动抽象(Action abstraction)和信息抽象(Information abstraction)的简化技术。所谓成败在于细节,Pluribus 因此只会将信息抽象用于对未来几个回合的预想中,而不会用在当前回合的决策上。
人工智能对其他玩家的特征、策略和对应收益都没有完整的了解。所以,研究者独创了一种新的方法,他们假设每个玩家会有自己的4种策略,包括“蓝图”策略和它的三个变种,并且会在游戏中选择其中一种。由于对手会变换策略,Pluribus 就会计算出比较平衡的策略,而不会偏向于只采取某些决定。另外,为了防止被对手看穿自己的策略,Pluribus 会先计算如果手上的牌跟现在不一样时,会采取什么行动。Pluribus 得出一个可以平衡各种情况的策略后才开始该回合的行动。
尽管Pluribus是为了玩扑克开发的,但其使用的技术并不是扑克所独有的,它也不需要任何专家领域的知识进行开发。该研究给我们提供了一个更好的基本理解,即如何构建一般的AI以应对多智能体环境,这种环境既包括其它AI智能体,也包括人类。同时,搭建一般的多智能体AI,也能使研究人员将研究过程中取得的AI基准成绩与人类能力的尖峰做对比。
近年来,由于计算技术的进步,以及数据集和人工智能技术愈加进步和复杂,人工智能在游戏平台的测试已经有了许多突破。科技巨头们也正在大力投资游戏领域,希望人工智能在该领域的突破能带动医疗、科学和能源等其他领域的突破。