首页 > 大数据 > 正文

20道问题识别假的数据科学家

2016-02-23 11:44:00  来源:36大数据

摘要:雇用数据科学家是不容易的工作,特别是当有一群假的数据科学家在里面装腔作势。这儿有现成的一些问题能够帮助区分真假的数据科学家。
关键词: 大数据
  雇用数据科学家是不容易的工作,特别是当有一群假的数据科学家在里面装腔作势。这儿有现成的一些问题能够帮助区分真假的数据科学家。

数据科学家
  
        如今数据科学家是公认的21世纪最性感的工作,每个人都想分一杯羹。
 
  这就意味着里面会混着一些对大数据装着很懂的人。这些人称自己为数据科学家,但是不具备关于数据方面的能力。
 
  当然他们不是有意去欺骗大家:他们是数据科学家。数据科学本身的崭新性和人们对相关工作内容的不够理解会让他们自己认为因为他们在处理数据,所以他们是数据科学家。
 
  “假的数据科学家经常是很擅长某一特定学科的,然后会坚持他们所在的学科是唯一的真正的数据科学。这个信念没有领会到数据的真正含义,即数据科学是根据科学工具和技术(如:数学方面的,计算机方面的,可视化方面的,分析方面的,统计方面的,经验方面的,还有问题定义,模型建立和验证)完全的应用,然后从数据收集里面获得发现,见识和价值。”
  –Kirk Borne ,Booz Allen Hamilton首席数据科学家和Rocket Data Science.org的创办人。
 
  发现假的数据科学家第一个方法是了解你要寻找的人应该具备哪些能力。
 
  明白数据科学家,数据分析师,数据工程师之间的不同是很重要的,特别是在如果你计划雇用他们中的一种的时候。
 
  为了帮助大家从假(或误以为)的数据科学家中找出真的,我们已经准备了20道面试问题,你可以在面试他们的时候采用。
 
  1.解释什么是规则化,为什么它是有用的。
 
  2.你最欣赏哪个数据科学家,是哪个创业企业的。
 
  3.你如何通过多次回归,验证你所创建的模型生成的关于数量结果的预测模型是可变的。
 
  4.解释什么是查全率,它们和ROC 曲线的关系。
 
  5.你如何证实你带到算法里面的一个改进是有意义的,但是没有起到作用。
 
  6.造成分析的根源是什么?
 
  7.你熟悉定价优化,价格弹性,存货管理和竞争智能吗?请举例。
 
  8.什么是检验效能?
 
  9.解释什么是重抽样方法,为什么有用?它们的局限性在哪里。
 
  10.存在很多的假阳性是不是更好,或者许多假阴性呢。请解释。
 
  11.什么是选择误差,为什么它很重要以及你如何避免。
 
  12.请举例,你如何使用试验设计回答关于用户行为的问题。
 
  13.数据格式的“长”和“宽”有什么不同。
 
  14.关于某特定领域的全面的真实信息,你通过什么方式决定相关统计数据无论是否发表于文章都是错的,或者被提出用以支持作者的观点也是不对的。
 
  15.解释Edward Tufte关于图表垃圾的概念。
 
  16.你如何检查极端值,如果你发现了一个你将怎么办?
 
  17.极值理论,蒙特卡洛模拟,数理统计,任意使用其中一种理论,你如何正确预测一件罕见事件的发生概率。
 
  18.推荐引擎是什么?它是如何工作的。
 
  19.解释什么是假阳性和假阴性。为什么区分两者很重要。
 
  20.你在使用什么工作进行可视化。你怎么看待Tableau?R?SAS?(关于图表的)。如何在一个表格或者视频里高效的描绘第五维?数据科学家“一个真正的数据科学家懂得如何运用数学和统计学,懂得通过合适的试验性设计创建和验证模型。如果拥有了IT技能,却不会统计技能,你就像只懂得举着手术刀的外科医生一样,只懂得如何拿手术刀(却不会做手术)。”
  –Lisa Winter,Towers Watson资深分析师。

第四十一届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:pingxiaoli

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。