首页 > 大数据 > 正文

数据科学究竟是什么?

2018-09-12 09:44:05  来源:阿里云栖社区编译

摘要:数据科学仅是一种概念,它结合了统计学、数据分析、机器学习及其相关方法,旨在利用数据对实际现象进行“理解和分析”。简单来讲:数据科学是一门将数据变得有用的学科。
关键词: 数据科学
  数据科学是一门将数据变得有用的学科。它包含三个重要概念:

  统计
  机器学习
  数据挖掘/分析

  数据科学的定义

  如果你回顾一下数据科学这个术语的[早期历史](),会发现有两个主题密切相连:

  大数据意味着计算机的使用频率增加。

  统计学家很难将纸张上所写算法用计算机实现。

  由此,数据科学得以出现。早先,人们将数据科学家视作会编码的统计学家。如今看来,这种说法并不准确,首先让我们回到数据科学本身。

\
推特给出的定义circa 2014

  2003年,《数据科学杂志》曾提出:“所谓的‘数据科学’,指的是那些任何与数据相关的内容”。对此,我表示赞同,现在一切都无法与数据分割。

  之后,对数据科学的定义便层出不穷,例如Conway的维恩图,以及Mason和Wiggins的经典观点。

\
Drew Conway对数据科学的定义

  维基百科上对数据科学的定义更接近于我给学生讲授的内容:

  数据科学仅是一种概念,它结合了统计学、数据分析、机器学习及其相关方法,旨在利用数据对实际现象进行“理解和分析”。

  简单来讲:数据科学是一门将数据变得有用的学科。

  现在你也许不禁会问,“这会不会太简单了,‘有用’怎么就能包含所有的术语呢?”

  先看下图,该图内容与维基百科给出的定义十分契合:

\
  这些都是什么,我们又如何知道处于图中所描述的哪个阶段呢?

  统计学家和机器学习工程师的区别不在于前者使用R,而后者使用Python。由于众多原因,按照SQL、R、Python进行分类是不合理的,其中最重要的原因是软件会更新。目前,已经可以用SQL来处理机器学习问题。

  新手依旧喜欢采用这种方式进行区分,甚至很多大学课程也是如此安排,但这不够合理。并且,最好不要采用直方图、t检验以及神经网络进行分类。如果你足够聪明,并且拥有自己的观点,你可以使用相同的算法解决所有的数学科学问题。

  我建议可按如下方式进行区分:

\
  None-One-Many

  这究竟指的是什么呢?没错,就是决定!当所有你需要的事实对你可见时,你可以通过描述性分析做出尽可能多的决定。

  我们的行动和决定会影响到我们周围的世界。

  接下来我们将继续探讨如何让数据变得有用。对我来说,有用的概念与影响世界的行动紧密相连。举个形象的例子:如果我们相信圣诞老人的存在,那圣诞老人这个概念就不重要了,除非它可能会以某种方式影响我的行为。然后,取决于这种行为的潜在后果,它可能开始变得非常重要。

  下图是决策导向图,您可以通过以下三步让数据变得有用。

\
  数据挖掘

  如果你不知道你要作何决定,最好的办法就是去寻找灵感。这就是所谓的数据挖掘、数据分析、描述性分析、探索性数据分析或知识发现。

  分析的黄金准则:只对你所见的下结论。

  除非你知道如何制定你的决策,否则就从寻找灵感开始吧。做法很简单,只需要你将数据集想象为你在黑暗的房间中发现的一堆底片。数据挖掘就是让设备尽可能快地公开所有的图片,这样你就能看到这些图片上是否有什么鼓舞人心的东西。和照片一样,不要把你看到的东西想得太严肃。你没有拍这些照片,所以你对屏幕之外的东西了解不多。数据挖掘的黄金法则是:只对你能看到的做出结论,不对你看不到的做出结论,因为你需要统计数据和更多的专业知识。

  除此之外,你还应尽力做到最好。数据挖掘的专业知识是通过检查数据的速度来判断的,不要迷恋那些看似有趣的东西。

  暗房一开始很吓人,但其实也没什么大不了的。只要学会操作设备就行。这是R语言的教程,这是Python语言的教程。当你开始玩得开心时,你可以称自己为数据分析师,当你能够以闪电般的速度曝光照片以及所有其他类型的数据集时,你就可以称为专家分析师。

  统计推断

  灵感很容易获取,但严谨却很难做到,如果你想掌握数据,则需要专业课程的学习。作为一名统计学专业的本科生和研究生,我认为统计学推论(简称统计学)是这三个领域中最难且最具哲学思想的。想要做好它需要花费不少的时间。

  如果你打算做出高质量且风险可控的决策,由于决策不仅仅依赖你所得到的数据,此时你需要在你的分析团队中加入统计技能。

  在情况不确定的时候,或许统计学能够改变你的想法。

  机器学习

  机器学习从本质上来讲,是使用示例而非指令来实现操作的。我也曾写过一些关于机器学习的文章,包括机器学习与人工智能有何不同、如何入门机器学习、企业运用机器学习的经验教训以及向孩子介绍监督学习等。

  数据工程

  数据工程指的是将数据传递给数据科学团队的工作。它本身就是一个复杂的领域,通常而言,它更接近于软件工程,而不是统计学。

  数据工程与数据科学的差异是前后的区别。

  获取数据之前的大部分技术工作都可以被称为“数据工程”,而获取到数据后我们所做的一切都是“数据科学”。

  决策智能

  决策智能是关于决策的,包括基于数据的大规模决策,这使得它变成了一门工程学科。利用社会和管理学科的观点,增强数据科学的应用。

  决策只能是社会和管理学科的组成部分。换句话说,它是这些数据科学的超集,而不涉及为通用用途创建基本方法之类的研究工作。
第二十七届CIO班招生
北达软第一期EXIN隐私与数据保护基础认证培训
法国布雷斯特商学院MBA班招生
法国布雷斯特商学院硕士班招生
责编:zhangxuefeng