马斯克支持团队研发能打Dota的AI：可击败人类玩家

2018-06-26 09:53:38 来源：深科技抢沙发

2018-06-26 09:53:38 来源：深科技

摘要：《星际争霸》这类即时战略类游戏显然已经不能满足AI的“求胜欲”了！这次，5种不同的 AI 算法像人类一样“组队”，在 Dota 2游戏中完虐人类玩家！
关键词：马斯克

　　《星际争霸》这类即时战略类游戏显然已经不能满足AI的“求胜欲”了！这次，5种不同的 AI 算法像人类一样“组队”，在 Dota 2游戏中完虐人类玩家！

　　今天，由马斯克和 Sam Altman 创立的着名人工智能非营利组织OpenAI 宣布这一重大里程碑：他们开发的 AI 已经能够组队在 5V5 对战中战胜 Dota 2 顶尖业余玩家，平均天梯分数超过4200分。

　　虽然这次与 AI 对战的是来自 OpenAI 的员工，并非顶尖职业玩家，而且 AI 也只会使用游戏所提供的 115 位可选英雄中的5位，并且人类玩家不能使用真假眼，魔瓶等道具，但我们有理由相信这仅仅是个开始。此次开发的 AI 也将在今年秋季参加顶级 Dota 2 赛事 The International，到时候会与 5 名专业选手组成的战队一决高下。

　　图丨OpenAI 的 AI 团队击败了OpenAI的员工团队，但前方还有更大的挑战

　　OpenAI 开发了一套名为“OpenAI Five”的算法，如果独立的看这种算法，其实并没有什么特别的，就是一种学会了如何玩 Dota 2 的神经网络，而且此前也有AI算法在一对一 Dota 2 比赛中胜过人类玩家的先例。但 AI 的这次胜利却有着完全不同的意义，因为5套算法间已经学会了如何与“队友”协作。

　　OpenAI 创建人工智能时使用的是机器学习的一种，强化学习。这种技术看似简单，但是能让 AI 习得非常复杂的行为。让 AI 学习的过程是，把 AI 放到虚拟环境中，并通过自我尝试学会实现目标。具体来说，程序员设定奖励机制（比方说在AI 杀掉敌人后奖励机器系统），然后让 AI 一遍遍进行游戏。

　　这些 Dota 机器人的自我训练量惊人，每一天机器人用相当于180年游戏的量进行训练，连续训练时间达几个月。研究人员说：“它开始时在地图上乱走，但是，几个小时后，它开始具备基本技能。如果一个人需要花1.2万到2万小时才能成为专业游戏玩家，那AI的速度要快得多，因为每天积累的游戏经验是一个人一生积累经验的100倍。”

　　图丨在2017年时，在1V1 被 AI 打败的 Dota2 顶尖人类选手 Dendi

　　与技术战略类游戏不同，Dota 这种 MOBA（多人联机在线竞技游戏）类游戏有着更为复杂的游戏机制，还需要队友间完美的配合才能取得最终的胜利。而这次的 5 位AI“玩家”完美的证明了人工智能也懂得相互配合。

　　这无疑是 AI 技术的又一里程碑，因为人们认知中的AI通常独立运行的，多AI间的相互配合，除了在游戏中击败人类，我们很容易联想到这种“协作型” AI 技术更多的商业应用场景，比如多种 AI 算法可以在在线交易或广告竞价排名中相互配合拿下订单，或者在生产线上“组队”完成多样化的制造任务。当然，合作型算法将导致AI技术与人类更“亲密无间”的协作。

　　其实即便是科技高度发展的今天，AI 和机器人技术还是两个相对独立的领域，人类也一直在尝试将 AI 技术与机器人相结合，来颠覆现有的生产及仓储模式，这无疑会将 AI 带入全新的时代。

　　此前，OpenAI 已经开发出了一种算法，能在一对一的 Dota 2 比赛中战胜人类顶级玩家，基于这套算法，OpenAI 进一步开发出了能评估自身表现与队伍获胜间的微妙关系。OpenAI Five 作为相互独立的5种算法，它们之间并不存在主动交流机制，除非它们处于同一局游戏中，所以大可不必担心出现电影《终结者》中的“天网”。

　　“我们从比赛中能感受到，AI算法间的协作意图似乎是一种非常自然的本能表现。” OpenAI 创始人之一的 Greg Brockman 表示。在 Dota 2 的 5V5 团队赛中，他们甚至尝试了用一位人类玩家顶替 5 位“ AI 玩家”中的一个，而这位替补上场的人类玩家的感觉是：“我能体会到AI队友对我的支援！”

　　图丨Greg Brockman

　　Dota2 是一个复杂的战略游戏，游戏中各自由五名玩家组成的队伍之间开展对战，在广袤的地图上推倒对方的防御塔和遗迹，才能获得最终的胜利。玩家们使用的英雄有各自的强项、弱项、技能和属性。在游戏里，玩家需要获得金钱，购买和升级装备，思考战略，还要和对手厮杀。

　　用 AI 程序来玩电脑游戏逐渐成为衡量 AI 能力的常用手段。围棋是着名的高难度游戏，Alphabet 的子公司 DeepMind 曾因为开发出能学习下围棋的软件而声名大噪。另一个相关的成绩则是 AI 通过与自己对战从零开始直到掌握了下围棋和国际象棋的能力。

　　虽然玩 Dota 2 所需的战略不像国际象棋和围棋那样有更多自由发挥的空间，但是要掌握这款游戏仍然相当困难。对于机器来说更是巨大的挑战，因为机器不能随时能看到对手的举动，而且这款游戏需要团队合作。

　　目前 OpenAI Five 还只能在有限条件下打 Dota 2。 OpenAI Five 不随机从115个可用英雄中选择，而是限定了5个英雄，因为每个英雄都有自己的特点。他们的选择是：Necrophos、Sniper、Viper、Crystal Maiden、Lich。

　　一些决策过程是硬编码的，比如在商店买哪些物品，以及选择用游戏积累的经验值提高哪些技能。此外，游戏中一些决策棘手的操作也被禁用，比如隐形和召唤。这些技能可以让玩家拥有观察远方的功能，就像有一个远程相机，几乎是高级游戏玩家必备。

　　尽管如此，OpenAI Five 继承了计算机的优势，反应时间比人类短，不会错过点击，可以即时和精确地获取数据，如物品清单、英雄的健康状况以及地图上物体之间的距离。而人类玩家必须手动检查或者凭本能判断。

　　OpenAI Five 通过与自己的不同版本对战来学习游戏战略。随着时间推进，程序习得的战略与人类玩家所使用的战略很类似，比如通过 “打钱” 找到获取金钱的方法，以及采用游戏中特定的战略角色，并学习如何分路，Gank 和支援队友等策略。

　　人工智能专家表示，这一成就意义重大。匹兹堡卡内基梅隆大学的研究员 Noam Brown 说：“Dota2 是一个极其复杂的游戏，能打败强大的业余玩家就已经很不容易了，而且，处理 Dota2 这种大型游戏中的隐藏信息是一个很大的挑战。”

　　Brown 之前研究过一种玩扑克的算法，扑克是另一种非完整信息博弈游戏，玩家需要有高超的技巧。Brown 说，如果 OpenAI 五人组能够一直打败人类，那将是人工智能的一个重大成就。然而，他也指出，只要有足够的时间，人类可能就会找出人工智能团队的游戏风格弱点。

　　Brown 说，其他游戏也可以进一步推动人工智能。“下一个重大挑战将是涉及到交流的游戏，例如《强权外交》和《卡坦岛》，在这些游戏里，玩家需要平衡合作与竞争才能胜利。”

第三十五届CIO班招生
国际CIO认证培训
首席数据官（CDO）认证培训

责编：pingxiaoli

免责声明：本网站（http://www.ciotimes.com/）内容主要来自原创、合作媒体供稿和第三方投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
本网站刊载的所有内容（包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等）版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时，请及时通知本站，予以删除。