AI技术不止于大数据未来或还能“战略博弈”

2017-11-07 来源：财新网原文链接评论0条

【财新网】（记者李明明张榆）“完美信息和非完美信息的游戏两者本质不一样，AlphaGo所应用的技术不可以应用到扑克游戏里面”，在11月6日举办的京东金融全球数据探索者大会上，卡耐基梅隆大学计算机系教授、德扑AI之父托马斯·桑德霍姆探讨了“超人类”的AI技术如何进行战略性的分析和推理，并接受了财新记者专访。

AlphaGo的训练过程一直被视为是基于大数据的深度学习，但桑德霍姆认为，人工智能不光局限于此，还有一些新的技术和领域，成为战略性逻辑，是战略博弈的一部分。

桑德霍姆表示，AlphaGo的技术可以用于所有完美信息游戏。所谓完美信息游戏，是指双方都掌握对等信息的游戏，在其中，一个大游戏可以分解成各小的子游戏，机器通过别的子游戏的结论就可以学习。比如在防御的时候，只用观察其中的一步怎么样做，就能学习，比如围棋游戏。

而在非完美信息的游戏中，玩家并不知道对手手中是什么牌，所以在一个子游戏学到的，无法用于另一个子游戏，比如德州扑克。

“我不知道我的扑克对手的以往的行动，他也不知道我的，我们也不知道对手背后的盘算，对手的行动对我有怎样的启示？我怎样通过对手的行动来推测到背后的动机，我的行动泄露了我的哪些意图？” 桑德霍姆以德州扑克游戏为例，描述了会遇到的各类复杂情形。

桑德霍姆团队开发的冷扑大师Libratus在与真人对打的扑克牌比赛中，打败了诸多德州扑克高手，其中包括中国的龙之队。

桑德霍姆详细介绍了冷扑大师运行背后设计的原理，采用了他们已验证正确的技术，并没有采用基于大数据的深度学习。他表示，冷扑大师是从零开始学习德州扑克的，主要是在了解既定的游戏规则之后，依靠自我的对局来学习，“好像是对着镜子给自己进行拳击，然后突然跳起来飞踢（拳王）泰森”。因而，冷扑大师的打法并不跟AlphaGo类似，是不靠人类经验的，而更多的是“博弈”的过程，并能够根据对手的行为，来发现战略漏洞，进行“自我改善”。

在现实生活中，类似围棋的“完美信息”场景是少见的，更多的是类似德州扑克这种“非完美信息”场景，充满随机性和信息隐匿。机器如果能够“战略博弈”，可能被更多被用于现实。桑德霍姆提出了几种被运用的可能性，如在定价中，可以根据竞争对手的价格变化，来进行战略性定价；在拍卖活动中，在没有人知道底价的情况下，进行合理的竞猜；对于电影版权，帮助流媒体公司构建更好的视频流组合，进行更好的谈判。此外，还可能运用到的领域涵盖驾驶规则管理、患者健康管理等。

桑德霍姆对财新记者表示，“我们为非完美信息游戏制定的这种战略推理（stragetic reasoning）在金融领域有许多的应用，尤其是对投资组合经理（portfolio manager）交易，在建立产品组合和执行交易的时候，都需要战略推理。因为当进行大型交易的时候，其实是将市场放在了对立面。”

“我们使用眼镜改善我们的视力，为什么不能用AI来改善自己的战略逻辑呢？” 桑德霍姆说。■

关键词：大数据棋牌游戏机器学习人工智能

转载声明：本文为转载发布，仅代表原作者或原平台态度，不代表我方观点。今日澳洲仅提供信息发布平台，文章或有适当删改。对转载有异议和删稿要求的原著方，可联络content@sydneytoday.com。

AI技术不止于大数据 未来或还能“战略博弈”

AI技术不止于大数据未来或还能“战略博弈”