大数据与统计新思维

2016-06-12 11:26:18 来源：36大数据抢沙发

2016-06-12 11:26:18 来源：36大数据

摘要：在计算机科学、电子商务等领域已率先在大数据技术开发与应用方面做出不俗成就的时候，以数据为研究对象的统计学该如何应对? 无动于衷还是盲目追从? 正确的态度应该是理性对待、积极跟进、改变思维、谋求发展。
关键词：大数据统计

　　译着《大数据时代》( 英国 ViktorMayer-Schǒnberger，Kenneth Cukier 着) 和《驾驭大数据》( 美国 Bill Franks 着) ，以及我国学者涂子沛、郭晓科的《大数据》等几本书引起了广泛的关注，其他各种媒体关于大数据的讨论也层出不穷，大数据已成为流行语。有人认为，大数据是一场新的革命，将横扫一切领域，重构世界。不少国家已将大数据作为国家发展战略，而商业领域更是将其视为下一个投资的宝库。毫无疑问，大数据时代已经来临，它正在悄悄地改变着人们的行为与思维，难以阻挡，无法抗拒。在计算机科学、电子商务等领域已率先在大数据技术开发与应用方面做出不俗成就的时候，以数据为研究对象的统计学该如何应对? 无动于衷还是盲目追从? 正确的态度应该是理性对待、积极跟进、改变思维、谋求发展。

　
　一对大数据的初步认识

　　到底什么是大数据，不同的学科领域、不同行业的从业人员肯定会有不同的理解。与传统意义上的数据相比，大数据的“大”与“数据”都有了新的含义，绝不仅仅是体量的问题，更重要的是数据的内涵问题。或许，“大”与“数据”根本就不能分开，只有把“大数据”当作一个整体概念来理解才有意义。那么从统计学的角度，我们该如何来理解大数据?笔者认为大数据不是基于人工设计、借助传统方法而获得的有限、固定、不连续、不可扩充的结构型数据，而是基于现代信息技术与工具可以自动记录、储存和连续扩充的、大大超出传统统计记录与储存能力的一切类型的数据。有人用 4V( Volume，Variety、Velocity 和 Value) 来形容大数据的特征，最根本之处就是数字化基础上的数据化。通俗地说，大数据就是一切可记录信号的集合。

　　如果说，传统统计研究的数据是有意收集的结构化的样本数据，那么现在我们面对的数据则是一切可以记录和存储、源源不断扩充、超大容量的各种类型的数据。样本数据与大数据的这种区别，具有什么样的统计学意义? 我们知道，样本数据是按照特定研究目的、依据抽样方案获得的格式化的数据，不仅数据量有限，而且如果过程偏离方案，数据就不能满足要求。基于样本数据所进行的分析，其空间十分有限———通常无法满足多层次、多角度的需要，若遇到抽样方案事先未曾考虑到的问题，数据的不可扩充性缺点就暴露无疑。而大数据是一切可以通过现代信息技术记录和量化的数据，不仅所蕴含的信息量巨大，而且不受各种框框的限制———任何种类的数据都来者不拒、也无法抵拒。不难发现，大数据相比于样本数据的最大优点是，具有巨大的数据选择空间，可以进行多维、多角度的数据分析。更为重要的是，由于大数据的大体量与多样性，样本不足以呈现的某些规律，大数据可以体现; 样本不足以捕捉的某些弱小信息，大数据可以覆盖; 样本中被认为异常的值，大数据得以认可。这将极大地提高我们认识现象的能力，避免丢失很多重要的信息，避免失去很多决策选择的机会。

　　这里，我们自然就想到了大量观察与大数据这两个概念中的“大”的区别。对于传统的统计研究方法而言，大量观察法是基础，是收集数据的基本理论依据，其主要思想是要对足够量的个体进行调查观察，以确保有足够的微观基础来消除或削弱个体差异对整体特征的影响，足以归纳出关于总体的数量规律。所以，这里的“大”是足够的意思。大量观察法的极端情况就是普查，但限于各种因素不能经常进行，所以一般情况下只能进行抽样调查，这就需要精确计算最小的样本量。基于大量观察法获得的样本数据才符合大数法则或大数定律，才能用以推断总体。而大数据则指不限量的数据，是基于现代信息技术的一切可以记录的全体数据，其特征之一就是尽量多地包含数据，它与样本容量无关，只与信息来源的数量与储存容量有关。因此，这里的“大”是全体的意思。

　　可见，统计学的研究对象没有变，变的是数据的来源、体量、类型、速度与量化的方式。这种变化对统计研究带来了什么样的挑战? 《大数据时代》提出了三个最显着的变化: 一是样本等于总体，二是不再追求精确性，三是相关分析比因果分析更重要。这些观点具有很强的震撼力，迫使我们对现有的统计研究思维进行反思。尽管这些观点值得进一步商榷，但至少告诉我们这样一个道理: 统计研究对象的基础变了，统计思维也要跟着变化，否则统计研究的对象只是全部数据的 5%，而且越来越少，那又怎么能说统计学是一门关于数据的科学呢? 又怎么去完善和发展开展数据分析研究的统计方法论呢?

　　二统计思维的变化

　　改变统计思维，是大数据时代的必然要求。否则，统计学科就有可能被大数据的潮流所吞没，至少会被边缘化，失去一次重要的参与推动历史变革的机遇。当然，统计思维的变化应该以一个永恒不变的主题为前提，那就是通过数据分析去揭示事物的真相，这个真相就是事物的生存规律、联系规律和发展规律。也就是说，数据分析要以数据背后的数据去还原事物的本来面目，以达到求真的目的。如果说，我们原来限于各种条件只能根据有限的样本数据去实现这个目的，那么现在我们则可以在很多方面借助大数据去实现这个目的，关键就看我们开展数据分析的能力有多大，或者说利用大数据、从一切数据中提取有价值信息的能力有多大———因为大数据无疑增加了统计分析的难度，而这又首先取决于我们统计思维能否适应大数据时代的变化。正如迈尔 – 舍恩伯格所说: 大数据发展的核心动力就是人类测量、记录和分析世界的渴望。

　　那么，统计思维应该发生怎样的变化? 笔者认为主要要有如下三大变化:

　　( 一) 认识数据的思维要变化

　　前面已经提到，与传统数据相比，大数据不仅体量大、变化快，而且其来源、类型和量化方式都发生了根本性的变化，使得数据杂乱、多样、不规整。

　　首先，从来源上看，传统的数据收集因为具有很强的针对性，因此数据的提供者大多是确定的，身份特征是可识别的，有的还可以进行事后核对。但大数据通常来源于物联网，不是为了特定的数据收集目的而产生，而是人们一切可记录的信号( 当然，任何信号的产生都有其目的，但它们是发散的) ，并且身份识别十分困难。从某种意义上讲，大数据来源的微观基础是很难追溯的。

　　其次，从类型上看，传统数据基本上是结构型数据，即定量数据加上少量专门设计的定性数据，格式化，有标准，可以用常规的统计指标或统计图表加以表现。但大数据更多的是非结构型数据、半结构型数据或异构数据，包括了一切可记录、可存储的信号，多样化、无标准、难以用传统的统计指标或统计图表加以表现。同时，不同的网络信息系统有不同的数据识别方式，相互之间也没用统一的数据分类标准。再者，现在有的数据库是非关系型的数据库，不需要预先设定记录结构即可自动包容大量各种各样的数据。

　　第三，从量化方式上看，传统数据的量化处理已经有一整套较为完整的方式与过程，量化的结果可直接用于各种运算与分析。但大数据中大量的非结构化数据如何量化( 结构化) 、如何从中提取信息、如何与结构化数据对接是一个崭新的问题。正如Franks 所说: “几乎没有哪种分析过程能够直接对非结构化数据进行分析，也无法直接从非结构化的数据中得出结论。”更为重要的是，“量化”的含义恐怕也不一样了，即此“量化”不一定等同于彼“量化”，量化结果的表现形式自然也不相同。显然，我们不能套用已有的方式去量化非结构化数据。

　　可以说，大数据是杂乱、不规整、良莠不齐的，但我们不能因此而回避它、拒绝它，只能接纳它、包容它。我们需要将统计研究的对象范围从结构型数据扩展到一切数据，需要重新思考数据的定义和分类方法，并以此为基础发展和创新统计分析方法。从某种意义上讲，没有无用的数据，只有未被欣赏的数据，关键是我们从哪个角度看数据。

　　( 二) 收集数据的思维要变化

　　收集数据是开展统计分析的前提，“没有黏土，如何做砖?”以往，收集统计数据的思维是先确定统计分析研究的目的，然后需要什么数据就收集什么数据，所以要精心设计调查方案，严格执行每个流程，但往往是投入大而数据量有限。现在，我们拥有了大数据，就等于拥有了超大量可选择的数据———备选“黏土”的体量与种类都极大地增加了，所要做的最重要的工作就是比较与选择，因此我们的思维应该是如何充分利用大数据，凡是大数据源中能找到的数据就不再需要进行专门的调查。

　　但是，由于大数据来源与种类的多样性，以及数据增加的快速性，我们在享受数据的丰富性的同时也不得不面临这样一些困境: 存储能力够不够，分析能力够不够( 是否及时、充分) ，如何甄别数据的真伪，如何选择关联物，如何提炼和利用数据，如何确定分析节点? 现在 TB 级的数据库已经很多，PB 级的数据库也不少见，以后还会出现 EB、甚至 ZB、YB级的数据库。今天的大数据，明天就不再是大数据。这样一来，电子存储能力能否跟得上数据增加的速度就成为首要的问题。如果让数据库自动更新就有可能失去一些宝贵的数据信息，而到了一定级别以后扩充存储容量或对数据进行拷贝，其代价是十分巨大的，因此我们不得不对数据进行分类、筛选，有针对地删除那些垃圾数据、不重要或次重要的数据。如果说以前有针对地获得数据叫做收集，那么今后有选择地删除数据就意味着收集。也就是说，大数据时代的数据收集将更多的是从已有的超大量数据中进行再过滤、再选择。因此，我们要做好丢弃一部分数据的准备。

　　当然，并不是任何数据都可以从现成的大数据中获得，这里存在一个针对性、安全性和成本比较问题。因此，我们既要继续采用传统的方式方法去收集特定需要的数据，又要善于利用现代网络信息技术和各种数据源去收集一切相关的数据，并善于从大数据中进行再过滤、再选择。问题在于什么是无用的或不重要的数据? 该如何过滤与选择数据? 这就需要对已经存在的数据进行重要性分析、真伪别和关联物定位。

　　此外，大的数据库可能需要将信息分散在不同的硬盘或电脑上，这样一来，在不能同步更新数据信息的情况下如何选择、调用和匹配数据又是一个问题。因此从某种意义上讲，从大数据中收集数据就是识别、整理、提炼、汲取( 删除) 、分配和存储元数据的过程。

　　( 三) 分析数据的思维要变化

　　基于上述两个变化，数据分析的思维必然要跟着变化，那就是要主动利用现代信息技术与各种软件工具从大数据中挖掘出有价值的信息，并在这个过程中丰富和发展统计分析方法。

　　关于数据分析思维的变化，特别需要强调三点:

　　第一，传统的统计分析过程是“定性—定量—再定性”，第一个定性是为了找准定量分析的方向，主要靠经验判断，这在数据短缺、分析运算手段有限的情况下很重要。现在我们是在大数据中找矿，直接依赖数据分析做出判断，因此基础性的工作就是找到“定量的回应”，这在存储能力大为增强、分析技术与分析速度大为提高的今天，探测“定量的回应”变得越来越简单，所要做的就是直接从各种“定量的回应”中找出那些真正的、重要的数量特征和数量关系，得出可以作为判断或决策依据的结论，因此统计分析的过程可以简化为“定量—定性”，从而大大提高得到新的定性结论的可能性。

　　第二，传统的统计实证分析，一般都要先根据研究目的提出某种假设，然后通过数据的收集与分析去验证该假设是否成立，其分析思路是“假设—验证”，但这种验证往往由于受到假设的局限、指标选择的失当、所需数据的缺失而得不出真正的结论。特别是，一旦假设本身不科学、不符合实际，那么分析结论就毫无用处、甚至扭曲事实真相。事实证明，很多这样的实证分析纯粹是为了凑合假设。现在，我们有了大数据，可以不受任何假设的限制而从中去寻找关系、发现规律，然后再加以总结、形成结论。也就是说，分析的思路是“发现—总结”。这将极大地丰富统计分析的资源与空间，有助于发现更多意外的“发现”。

　　第三，传统的统计推断分析，通常是基于分布理论，以一定的概率为保证，根据样本特征去推断总体特征，其逻辑关系是“分布理论—概率保证—总体推断”，推断的评判标准与具体样本无关，但推断是否正确却取决于样本的好坏。现在，大数据强调的是全体数据，总体特征不再需要根据分布理论进行推断，只需进行计数或计量处理即可。不仅如此，还可以根据全面数据和实际分布来判断其中出现某类情况的可能性有多大，其逻辑关系变成了“实际分布—总体特征—概率判断”，也即概率不再是事先预设，而是基于实际分布得出的判断。按照迈尔 -舍恩伯格的观点，这个概率判断就可用于预测了。

　　伴随着上述三大变化，统计分析评价的标准又该如何变化? 传统统计分析的评价标准无非两个方面，一是可靠性评价，二是有效性评价，而这两种评价都因抽样而生。所谓可靠性评价是指用样本去推断总体有多大的把握程度，是以概率来度量的———有时表现为置信水平，有时表现为显着性水平。特别是在假设检验和模型拟合度评价中，显着性水平怎么定是一个难题，一直存在争议，因为所参照的分布类型不同其统计量就不同，显着性评价的临界值就不同，而临界值又与显着性水平的高低直接相关。然而在大数据的背景下，大数据在一定程度上就是全体数据，我们可以对全体数据进行计数或计量分析，这就不存在以样本推断总体的问题了，那么这时还有没有可靠性的问题? 还要不要确定置信水平?怎么确定? 依据是什么? 如何比较来自不同容量数据库的分析结论的可靠性?

　　所谓有效性评价指的是真实性，即误差大小。这里又有两个相关的概念: 准确性与精确性。准确性一般是指一个观察值与真实值的吻合程度，通常情况下是无法做出测度的; 而精确性一般指样本统计量分布的离散程度，以抽样分布的标准差来衡量。很显然，精确性是针对样本数据而言的。也就是说样本数据既有精确性问题又有准确性问题，样本数据中的误差既包括抽样误差也可能包括非抽样误差。抽样误差可以基于抽样分布理论进行计算和控制，而非抽样误差只能通过各种方式加以识别或判断，但多数情况下由于样本量不是太大而可以得到较好的防范。但对于大数据，由于它是全体数据，因而不再有抽样误差问题，只有非抽样误差问题，也就是说大数据的真实性只表现为准确性而非精确性。然而由于大数据是超大量数据，再加上混杂性与多样性，因此其非抽样误差很难防范与控制，这就使得准确性评价问题变得更为困难———如何测度? 标准怎样?
第三十五届CIO班招生
 国际CIO认证培训
 首席数据官（CDO）认证培训

责编：pingxiaoli

免责声明：本网站（http://www.ciotimes.com/）内容主要来自原创、合作媒体供稿和第三方投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
本网站刊载的所有内容（包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等）版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时，请及时通知本站，予以删除。