首页 > 大数据 > 正文

深解读:什么是数据科学?如何把数据变成产品?

2016-05-18 17:15:59  来源:36大数据

摘要:一个数据应用从数据里获取价值,同时创造更多的数据作为产出。它不只是带有数据的一个应用,它就是一个数据产品。而数据科学则是能创建这样的数据产品。
关键词: 大数据

 
  让数据来讲它自己的故事
 
  一图或许值千言,或许不值,但一图绝对值千数。很多数据分析算法的问题都是他们仅仅只是产生了一堆数字。为了理解这些数字的意思(它们要说的真实故事),你需要制作好的图表。爱德华.塔夫特(Edward Tufte)的《量化信息的可视化显示》就是数据可视化的经典书籍,也是任何希望从事数据科学的人要看的基础教材。据马丁.瓦滕伯格(Martin Wattenberg,Flowing Media的创始人),可视化对数据调节很重要,如果你想发现数据的质量如何,那就把它画出来。可视化也经常是是数据分析的第一步。希拉里.梅森说当她拿到新的数据后,她会首先画很多的散点图,试图去找到那些有趣的东西。一旦你发现某些数据有价值的线索,就可以继续用更详细的分析来继续了。
 
  有很多软件和工具可以用来制作图表展现数据。GnuPlot是非常有效的一个。R也有很丰富的图表库;凯西.瑞斯和本.弗莱的Processing是最先进的一个,特别是如果你想制作可随时间变化的动画。IBM的Many Eyes里的很多可视化都是完全可以交互的应用。
 
  内森·姚(Nathan Yau)的FlowingData博客是一个很好的地方可以来学习制作可视化。我最喜欢的动画之一是沃尔玛的成长。它里面不仅仅是可视化自己的美学,还有艺术的部分,可以帮助理解数据。它看起来像是身体里的癌症在扩散吗?或是流感在人群里的爆发传播?让数据来说它自己的故事不仅仅是展现结果,它还包括制作连接,连到其他的数据源来证实这些结果。一个成功的零售连锁店的发展和一个传染病的发展类似吗?如果是这样,这是不是给了我们一个新的洞察,理解经济是如何发展的?这个问题我们几年前甚至都不能问。因为没有足够的计算能力,而数据则各自被锁定在各自的环境里,同时能处理这些数据的工具也不成熟。现在类似这样的问题每天都被问出来。
 
  数据科学家
 
  数据科学要求很多技能,从传统的计算机科学、数学到艺术。杰夫.哈默巴赫尔在描述他在脸书组建的数据科学团队(可能也是面向消费者的网站里的第一个数据科学团队)时说:
 
  在某一天,团队的成员可以在Python里写出多个阶段的数据处理管道,设计一个假设检验的测试,用R来对数据样本所回归分析,为一些数据密集型的产品和服务在Hadoop上设计和实现一种算法。或是就我们分析的结果和其他的成员或部门进行沟通。
 
  哪里去找到这些多才多艺的人哪?按领英的首席科学家DJ.帕蒂尔(DJ Patil)的说法,最好的数据科学家应该是“理科科学家”,特别是物理学家,而不是计算机专业的人员。物理学家一般有很好的数学背景、计算机技能,同时物理学也是一个非常依赖从数据里获得发现的学科。他们必须思考大画面,大问题。如果你花费了很多的科学基金来获取数据,即使数据没有想要的那么清晰,你也不会随意丢弃。你必须要想办法来让数据讲故事。当数据讲的故事不是你所想要它讲的时候,你就需要一些创造性。
 
  科学家也需要知道如何把大问题分解成一些小一点的问题。帕蒂尔描述了在领英创建一些推荐特性的过程。这种任务可能很容易变成一个高光的开发项目,花费几千个人天的开发时间加上几千小时的计算时间来发现领英成员的相互间的关联关系。但是帕蒂尔他们的工作过程却很不一样。他们从一个相对小的项目开始,简单地编程来查看成员的画像并做相应的推荐。问诸如你上过康奈尔大学吗这样的问题,就可以帮助推荐是否成员需要加入康奈尔校友会。然后就可以逐渐地扩展出去。除了查看用户的画像,领英的数据科学家开始查看会员参加过的活动,随后是他们参加的图书馆的读书俱乐部。结果就产生了一个能分析海量数据的有价值的数据产品,但它最初也不是按这个思路设计的。这是一个敏捷地、灵活地过程,逐渐地实现最终的目标,而不是一开始就直接去爬高山。
 
  这就是帕蒂尔所说的“数据柔道”的核心思想。即用一些附带的小问题来解决那些看起来无法解决的大的困难的难题。CDDB就是一个数据柔道的很好的例子,直接分析歌曲音轨来识别音乐是非常难的(尽管不是不可能,例如midomi)。但CDDB的员工创造性地用更好追踪的方法解决了这个问题。基于音轨的长度来计算一个音轨的签名,然后在数据库里搜索这个签名,非常简单直接!
 
  并不容易来发现数据科学工作的指标。但是来自O’Reilly研究的数据显示了一个稳定Hadoop和Cassandra招聘公告的逐年增长。这可以算是对“数据科学”总体市场的一个好的表征。本图显示了Cassandra招聘数量的增长和排列Cassandra职位的公司的数量。
 
  创业精神是整个问题的另外重要一块。帕蒂尔对问题“当你准备招聘一个数据科学家的时候,什么样的人你会找?”时的第一反应是“那些你想跟着一起创业的人”。这是一个重要的洞察:我们进入了一个构建于数据上的产品的时代。我们还不知道这些产品是什么,但是我们知道胜出者会是那些能发现这些产品的企业和个人。希拉里.梅森也给出了同样的结论。她作为bit.ly的数据科学家的主要工作就是研究bit.ly所产生的数据,并从中发现如何构建有趣的产品。在尚不成熟的数据行业,没有人试图去制造2012的尼桑Stanza或者Office 2015,相反的,这个行业的从业者都在尽力去发现新产品。除了是物理学家、数学家、程序员和艺术家,他们还是创业者。
 
  数据科学家把创业精神和耐心、愿意逐步地制造数据产品的意愿、探索的能力和能就一个解决方案进行反复迭代的能力结合起来。他们是天生的交叉学科。他们能从所有方面来探索问题,从最初的数据收集、数据调节到得出结论。他们能创造性的找到新的方法来解决问题,同时去回答一个非常宽泛定义的问题:“这里有很多很多的数据,你能从中找到什么?”
 
  未来属于那些能知道如何成功收集和使用数据的企业。谷歌、亚马逊、脸书和领英都已经在利用他们的数据流并形成了他们的核心业务,且获得了成功。他们是先锋,但更新的企业(像bit.ly)正在追随着他们的脚步。无论是挖掘你个人的生物群落,还是从几百万旅游者分享的经验里绘制地图,或者研究人们分享给别人的URL,新一代的生意将会是依靠数据来成功。哈尔.瓦里安的采访里有一段可能没人能记住的引用:
 
  这个能拿到数据的能力—能理解数据、处理数据、从中抽取价值、可视化数据并能和别人交流结果—将会是下一个十年里极度重要的技能。

第四十一届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:pingxiaoli

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。