首页 > 大数据 > 正文

大数据允许不精确

2018-09-06 16:57:42  来源:大数据观察

摘要:执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的。
关键词: 大数据
\
  执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的。

  如果不接受混乱,剩下95%的非结构化数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。

  在越来越多的情况下,使用所有可获取的数据变得更为可能,但为此也要付出一定的代价。

  数据量的大幅增加会造成结果的不准确,与此同时,一些错误的数据也会混进数据库。然而,重点是我们能够努力避免这些问题。

  我们从不认为这些问题是无法避免的,而且也正在学会接受它们。这就是由“小数据”到“大数据”的重要转变之一。

  对“小数据”而言,最基本、最重要的要求就是减少错误,保证质量。因为收集到的信息量比较少,所以我们必须确保记录下来的数据尽量准确。无论是确定天体的位置还是观测显微镜下物体的大小,为了使结果更加准确,很多科学家都致力于优化测量的工具。

  在采样的时候,对精确度的要求就更高更苛刻了。因为收集信息的有限意味着细微的错误会被放大,甚至有可能影响整个结果的准确性。

  历史上很多时候,人们会把通过测量世界来征服世界视为最大的成就。

  事实上,对精确度的高要求始于13世纪中期的欧洲。

  那时候,天文学家和学者对时间、空间的研究采取了比以往更为精确的量化方式,用历史学家阿尔弗雷德.克罗斯比的话来说就是“测量现实”。

  我们研究一个现象,是因为我们相信我们能够理解它。

  后来,测量方法逐渐被运用到科学观察、解释方法中,体现为一种进行量化研究、记录,并呈现可重复结果的能力。

  伟大的物理学家开尔文男爵曾说过“测量就是认知。”这已成为一条至理名言。培根也曾说过“知识就是力量。”

  同时,很多数学家以及后来的精算师和会计师都发展了可以准确收集、记录和管理数据的方法。

  19世纪,科技率先发展起来的法国开发了一套能准确计量时间、空间单位的系统,并逐渐成为其他国家普遍采用的标准,这套系统还为后来国际公认的测量条约奠定了基础,成为测量时代的巅峰。

  仅半个世纪之后,20世纪20年代,量子力学的发现永远粉碎了“测量臻于至善”的幻梦。

  然而,在物理学这个小圈子以外的一些测量工程师和科学家仍沉湎在完美测量的梦中。

  随着理性学科,如数学和统计学逐渐影响到商业领域,商业界更加崇尚这种思想。

  然而,在不断涌现的新情况里,允许不精确的出现已经成为一个新的亮点,而非缺点。因为放松了容错的标准,人们掌握的数据也多了起来,还可以利用这些数据做更多新的事情。

  这样就不是大量数据优于少量数据那么简单了,而是大量数据创造了更好的结果。
第三十五届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:zhangxuefeng

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。