前阿里大神AI创业主打决策智能 先攻《星际II》

[align=center]△ 启元世界创始人兼CEO袁泉(左)与联合创始人兼CTO龙海涛(右)[\/align] △ 启元世界创始人兼CEO袁泉(左)与联合创始人兼CTO龙海涛(右)

  李根 假装发自 克普鲁

  量子位 报道 | 公众号 QbitAI

  看看别人家的玩游戏事迹。

  在北京大学第42届ACM-ICPC国际大学生程序设计竞赛全球总决赛现场,一款基于《星际争霸II》的AI人机协作挑战赛也在同期进行,主办方启元世界,一家主打决策智能的AI初创公司。

  比这家初创公司更知名的是其创办者:前阿里淘宝推荐算法团队创始人袁泉(算法P10),以及前阿里搜索广告架构负责人龙海涛,他们都出自阿里电商核心部门。

  “星际是我们一代人的青春记忆,也是决策智能绝佳的训练场景”,出于对《星际争霸》的热爱,也出于决策智能的笃定,他们在2017年携手创业,并且很快获得高榕资本数千万元天使投资。

  袁泉和龙海涛,都不简单。

  袁泉和龙海涛其人

  袁泉,离职前担任阿里认知计算实验室负责人、资深总监,是手机淘宝、手机天猫推荐算法团队缔造者,2013年到2016年期间率队打造了“千人千面”的手淘推荐系统,因此还拿下了当年双11的CEO特别贡献奖。“有好货”、“猜你喜欢”等电商个性化产品,均出自其间。

  加入阿里前,袁泉是IBM中国研究院的研究员,从事推荐等智能决策算法的研究,是IBM2011年全球银行业FOAK创新项目发起人。

  学术方面,还有十余篇论文中标国际顶级会议ACM RecSys、KDD、SDM等,拥有多项中美技术专利,长期担任ACM RecSys审稿人、IEEE Transaction on Games审稿人。

  龙海涛则是袁泉阿里和IBM中国研究院的老战友。在2013-2017年期间,龙海涛在阿里巴巴负责搜索广告业务的架构设计,主导了其核心的离线系统、在线引擎和索引内核的升级换代,并因此获得了阿里妈妈“最佳团队奖”、“最佳项目奖”和“双十一个人创新特别奖”。

  IBM研究院期间,他则从事移动计算方面的研究。之后还有过多年成功的技术创业经历,为电信、银行、能源等大型企业提供过IT解决方案。

  目前,袁泉和龙海涛已经组建起了一支几十人规模的团队,在位于北京海淀区的办公室,整日“吃饭睡觉打游戏”,以及搞AI。

[align=center][\/align]

  AI打星际

  利用打游戏搞AI,已经不算陌生。

  广泛一点看,AlphaGo、冷扑大师等标志性的AI事件都在打游戏。

  即便狭隘一些,DeepMind、OpenAI等知名组织也都希望从星际、DOTA2这样的游戏中寻得AI突破,腾讯则还用AI 游戏进行模型算法研发、训练。

  那为啥启元世界也选择《星际争霸》?

  袁泉告诉量子位,《星际争霸》一直是游戏玩家心目中即时战略类的经典之作,历时十多年而不衰,现在之所以成为深度强化学习、决策智能算法研究的一个主要平台和工具,是因为其蕴含了多智能体协作、多任务学习、宏观策略规划等复杂问题,一旦取得部分突破和进展,对商业和社会发展都会带来极大影响。同时,《星际争霸》十多年来积累了非常非常多的数据,还可以从之前的经验中进行学习和优化算法。

  此外挑战也看得见。

  第一,比起像围棋或者象棋这种大家都可能看得见的、完全信息下的博弈,《星际争霸》是有战争迷雾的,所以必须去探路、侦查、了解对手的信息,从而在不确定的情况下去做智能决策。

  第二,有非常巨大的搜索空间。围棋的搜索空间大概在10^170,《星际争霸》在128×128的地图上并且人口上限是400个unit的情况下,它的搜索空间大概在10^1685,比围棋高很多个数量级,这还没有算上其他状态(比如说血量等等)的情况下。所以现有的任意一个单一算法根本不可能解决《星际争霸》里面所有的问题。

  第三,星际是一个即时对抗类的游戏。如果说正常游戏大概是1秒钟24帧,那在星际中必须在42毫秒之内做出迅速的反应,而且这个反应不是一个action,而是一系列的action,每个unit都会采取行动,这对我们算法的性能、效率、工程上的考虑都是非常大的挑战。

  第四,时间、空间上的推理。想要玩好星际,必须基于时序上、空间上去做推理,比如说地理位置的优势,坦克如果架在哪里可能会比较好,如果开分机在哪个位置去开会比较有利,甚至于军营造在什么地方,这些对于AI来说都需要进行一个空间上的推理。

  最后,涉及多个智能体协作。《星际争霸》最高有400个unit,所以需要多个智能体协作,需要多个兵种去配合,这对AI来讲也是一个很大的挑战。

  可以顺路一提的是,关于AI打《星际争霸》,量子位也有过专门文章介绍,并且传送过暴雪和DeepMind的工具包,感兴趣即可移步。

  启元世界挑战赛

  在此次ACM-ICPC赞助活动现场,启元世界也基于《星际争霸II》给出了两道人机协作的挑战赛。

  赛题一 :人机协作 vs 机机协作

  水晶采集赛:在规定时间内,分为A、B两队,每队两个单位分别收集地图上的蓝色水晶。A队为1人加1个具备协作能力的AI智能体;B队为两个具备协作能力的AI智能体。 比赛的关键在于A队中的人和AI能否实时观察、理解对方的意图与行动,并能采取有效的行为进行合理分工,采集到更多的水晶。

[align=center]赛题二:人机对抗赛[\/align]赛题二:人机对抗赛

  Reaper争霸:玩家与AI分布操控10个星际争霸II中独具特色一类角色——Reaper,在广袤的场地上进行对抗博弈。Reaper可发射一般子弹,也可以扔出手雷。选手需要审时度势,根据不同的游戏场景,采取灵活的协作博弈策略,操控己方的单位对AI一方进行攻击,取得比赛的胜利。

  在ACM-ICPC期间,有意者均可前往北大英杰交流中心试试。

  或者直接寻求拿着薪水打游戏,袁泉说目前公司在算法、工程方面都希望招贤纳士,扩充更多工程师入坑一起“玩游戏”。

[align=center][\/align]

  当然,更长远未来,从《星际争霸》中学习训练的AI,还会进入各行各业,从工业机器人的生产与操控,到自动化农业,智能交通、物联网领域,都不缺乏应用场景。

  — 完 —

发表评论

电子邮件地址不会被公开。 必填项已用*标注