首页 > 大数据 > 正文

对话吴甘沙:强技术驱动公司如何建设数据团队?你得先抢来一位技术大牛

2017-07-06 10:45:07  来源:大数据文摘

摘要:本文为清华数据科学研究院联合大数据文摘发起的《数据团队建设全景报告》系列专访内容。
关键词: 大数据
\

  “找个技术大牛带头建立数据团队,我觉得已经是最近几年被验证的思路了。”吴甘沙这样说道。
 
  近几年,学界和工业研究院大牛频频被挖至业界也反映了业界强技术驱动型公司组建数据团队的这一思路。“大咖被哄抢”让数据团队建设成为了一场激烈的战役,那么喧嚣之后,业界又是一种怎样的心态与现状呢?
 
  “他的团队少见地吸纳了许多超级天才。其中有来自大学的机器专家,顶尖的计算机视觉专家,以及来自Google的机器学习团队。”
 
  一如李开复所评价的,驭势科技的数据团队集结了众多数据科学、人工智能领域的大咖。
 
  前英特尔中国研究院院长,前英特尔大数据实验室主任,前英特尔大数据实验室主任,谷歌眼镜最早期核心研发成员,以及原北京理工大学教授、曾经的智能车未来挑战赛冠军。
 
  2016年2月,在这五位联合创始人的带领下,一家旨在突破中国自动驾驶格局的公司——驭势科技——正式成立了。不久后,英特尔中国唯一一位资深首席工程师也加入了这家公司。
 
  这几位数据科学、人工智能大咖的联合,意味着一支超强数据团队的成立。
 
  数据团队建设:大牛先上,再发展下线
 
  特斯拉从OpenAI挖走Andrej Karpathy,阿里从亚马逊挖走任小枫——AI人才大战早已成为行业的惯常。
 
  强技术驱动公司如何建立数据团队、开展新业务?吴甘沙给出的答案是:大牛先上,再发展下线。
 
  在驭势科技,前英特尔中国研究院院长吴甘沙等几位英特尔的才俊掌舵计算,谷歌眼镜最早期核心研发成员赵勇总管视觉,原北京理工大学无人车项目负责人姜岩执掌决策控制。在这几位各自领域大牛的带领下,驭势科技的数据团队在一年多的时间里迅速壮大。
 
  除去大牛本身超强的技术背景能为企业带来的潜能,吴甘沙认为选择这条数据团队建设道路至少还有三个原因。
 
  首先,技术大牛的入驻本身能为公司带来一批优秀的追随者。吴甘沙从英特尔的出走,吸引了一批顶尖数据科学人才。除驭势科技外,吴甘沙也为我们举了360的例子。2015年,新加坡国立大学计算机视觉、深度学习专家颜水成加入360,紧跟其后的便是一大批他的学生与学界好友。
 
  吴甘沙也提到,在国外,Uber的作法更是野蛮的一锅端——2015年,Uber从卡内基梅隆大学(CMU)的国家机器人工程中心一次性挖走了50名研究自动驾驶汽车技术的科学家。而在此之后,Uber也立即宣布向CMU捐赠550万美元,以赢回学术界的青睐。
 
  其次,吴甘沙认为,大牛本身对人才准确、高要求的标准也非常有利于数据团队的进一步建设。
 
  “普通的HR不会帮你做决定,他们只是负责把渠道打开,流量进来,进行一个初筛。而负责最后把关的仍然是技术部门的大牛。”吴甘沙称。
 
  数据行业专业化程度高的技术岗位会对人才有多种专业技能的要求,要理解这些需求,对于一般HR来讲确实很难。因此,大牛的把关对团队建设起着至关重要的作用。
 
\
  ▲吴甘沙(照片由受访者提供)
 
  面对行业内对于学界大牛会否缺乏业内相关知识的质疑,吴甘沙也指出,这不会成为学界大牛在业界发挥的阻碍。
 
  “我觉得这些大牛的学习能力是非常强的。这一点你都不用太担心,他们对于业务知识的学习能力非常强,像漆远现在在蚂蚁金服其实做得风生水起,他对蚂蚁金服的业务其实是了解得非常深刻的。”(注:漆远曾任普渡大学计算机系和统计系终身教授,现任蚂蚁金服VP。)
 
  对于这一现象背后所反映出的业界现象,吴甘沙认为是数据人才的严重稀缺。不仅是大牛资源的稀缺,也是基础数据人才的稀缺。
 
  “我们有多少料就做多少菜,从某种程度上,人才也是制约我们能够做更多的菜、做满汉全席的一个重要因素。对于人才的一种饥饿,在未来的2到3年内会一直存在。我觉得整个行业都是这样的,大小公司都处在一种饥饿的状况。这样的人才很少,所以大家就希望尽量在早期把这些人才抢光,然后后面增量的来了再说。”
 
  迅速扩张时,如何保证数据团队有效运转?
 
  与数据人才稀缺相伴相行的,则是数据团队的迅速建立与扩张。
 
  吴甘沙告诉我们,在驭势科技就并行存在着三只涉及大量数据科学工作的团队:大数据基础架构和分析团队作为数据团队服务于整个公司,而另外的两只人工智能团队——以深度学习为主的视觉感知、认知团队和做多传感器融合、决策规划的团队,也涉及了大量的数据和数据科学技术。
 
  那么在驭势科技,这三只并行的团队是如何实现有效沟通协作,团队又是怎样实现人才、任务的合理规划的呢?
 
  面对这两个问题,驭势科技的解决方案是设立公有数据平台与数据规范。
 
  “我们是在一个数据平台上,这个数据平台其实包括了内部数据平台和外部数据平台。外部辅助运营运维,内部负责公司自身的数据驱动。”
 
  同时,驭势科技的CIO负责协调所有团队的数据定义,数据存储规范,和数据使用接口。这些举措保证了每支团队对相互之间的数据工作有着基本、必要的认识,同时遵循着一套统一的数据规范。
 
  驭势科技的三个数据团队虽然在组织结构上是相互平行的,但是在具体业务上又有着垂直交互的关系,因而上游团队对下游团队的技术、业务能力的充分了解也是确保团队间协同合作的重要因素。
 
  举例说,融合决策团队要能给视觉感知团队提出合理的要求:决策团队可能会要求视觉团队把路面可行驶区域、车道线、障碍物、交通标志等检测出来,这就要求决策团队了解视觉团队当前的技术能力。当然,这也并不意味着数据科学家需要同时了解多支团队的工作细节,比如决策团队的数据科学家就不必对视觉团队的识别和分割算法有深入的认识。
 
  在采访中,吴甘沙也提到了合理制定人才、任务规划的难题。吴甘沙认为,如何合理衡量每个科学家的贡献值是行业的一个普遍难题。举例说,算法团队下就有专门做算法和算法实现的小团队,算法小分队负责在实验环境中用庞大的GPU跑出算法的程序,而真正实现这个算法的团队则要保证代码的质量,要保证在一个很小的嵌入式平台上跑得起来。这两个团队的贡献值需要用不同的尺度衡量。
 
  在驭势科技这类强技术驱动公司,一个更大的难题则是平衡短期和长期的发展目标。在驭势科技,短期目标是生存,是出产品、上车、应用于特定场景、形成实际的贡献,长期目标是技术在世界范围内的领先性,是积累数据、探索更先进的算法。
 
  短期激励主要靠加薪和奖金,长期激励更多靠期权,这是驭势科技当前的解决办法。吴甘沙承认,在数据团队建设领域,大家还没有找到一个非常合理、不容易被异化的贡献衡量指数。其中一点重要的原因是数据科学领域的迅速发展。
 
  “现在我们几乎每三个月就要换掉一套算法,因为现在这个领域一直有新的、好的算法出来。所以你很难找到一个非常客观、不容易被异化的指数。”
 
  对人才的要求:要么有即战力、要么有发展力
 
  “我们有一个很严格的评判标准,想进入我们公司的话首先要做codility上面的编程测试,不是说只是理论上行就行,还要会编程,之后还要经历四五轮的面试。”吴甘沙这样向我们描述驭势科技的招聘流程。
 
  目前,驭势科技的数据团队成员多数为名校毕业的博士生、研究生。吴甘沙告诉我们,这类人群对基础知识有着非常深刻的掌握,同时有着很好的科研功底。
 
  “比如说一个本科生,他可能调一个深度学习的网络能调得很好,但是数学这一块未必已经打得非常扎实了。其次,博士生、研究生通过之前的科研经历已经养成了较好的科研习惯,学习到了成熟的科研方法论,这也是一般本科生所欠缺的。”
 
  然而,吴甘沙也表示,驭势科技现在已经逐渐将目光转向了优秀的本科生,甚至非相关领域的毕业生。他注意到,数据科学的人才培养已经在向年轻化发展——很多高中生已经开始学习机器学习,一些本科生也已在顶级机器学习期刊上发表论文。
 
  “这样的人他悟性非常高,你只要给他一个导师,就稍微指导一下,给他指定一些文献,让他看,他很快就学会了。”
 
  在访谈最后,吴甘沙也代表业界为学界的人才培养提了一些建议——不急功近利,要重视创新培养。
 
  “高校培养学生不要让他们花大量的时间在常规任务,比如调参数上,这样就把他的创新力给压制了。以调参数为例,你只要拿一个开源的软件,甚至是现成的算法,也能够获得很好的成绩。所以我是觉得,学界还是不要一窝蜂地去追潮流,还是要做一些逆潮流、基础性、开拓性的东西。”
 
  吴甘沙注意到,在人工智能论文发表数量方面,中国已经遥遥领先于美国,然而从影响因子(如被引用量)来看,中国还是落后于很多国家的。
 
  “所以说学界还是要培养原创人才,然后不用担心这些人才跟不上产业界发展。这样的人才到公司里面,只要通过一个很好的培训,一两个月就能上手了。”
 
  总的来说,忌急功近利,重创新培养,是高校培养数据人才的难点,也是学生进入数据行业的关键。

 
责编:pingxiaoli
分享到: