首页 > 大数据 > 正文

大数据讨论,让数据“发声”

2018-09-04 14:38:19  来源:大数据观察

摘要:全面的质量监管要求对生产出来的每个商品进行检查,而现在只需要从一批商品中随机抽取部分样品进行检查就可以了。本质上来说,随机采样让大数据问题变得更加切实可行。同理,它将客户调查引进了零售行业,将焦点讨论引进了政治界,也将许多人文问题变成了社会科学问题。
关键词: 大数据
  当数量无比庞大时,如何选择样本呢?

  有人提出有目的地选择最具代表性的样本是最恰当的方法。

  1934年,波兰统计学家耶日.奈曼指出,这样只会导致更大的漏洞。事实证明,问题的关键是选择样本时的随机性。

  统计学家们证明:采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。

  虽然听起来很不可思议,但事实上,一个人对1100人进行的关于“是否”问题的抽样调查有着很高的精确性,精确度甚至超过了对所有人进行调查时的97%。

  这是真的,不管是调查10万人还是1亿人,20次调查里有19次都能猜对。

  为什么会这样?原因很复杂,但是有一个比较简单的解释就是,当样本数量达到了某个值之后,我们从新个体身上得到的信息会越来越少,就如同经济学中的边际效应递减一样。

  认为样本选择的随机性比样本数量更重要,这种观点是非常有见地的。

  这种观点为我们开辟了一条收集信息的新道路。通过收集随机样本,我们可以用较少的花费做出高精准度的推断。因此,政府每年都可以用随机采样的方法进行小规模的人口普查,而不是只能每十年进行一次。

  事实上,政府也确实这样做了。例如,除了十年一次的人口大普查,美国人口普查局每年都会用随机采样的方法对经济人口进行200多次小规模的调查。当收集和分析数据都不容易时,随机采样就成为应对信息采集困难的办法。

  很快,随机采样就不仅应用于公共部门和人口普查了。在商业领域,随机采样被用来监管商品质量。这使得监管商品质量和提升商品品质变得更加容易,花费也更少。

  以前,全面的质量监管要求对生产出来的每个商品进行检查,而现在只需要从一批商品中随机抽取部分样品进行检查就可以了。本质上来说,随机采样让大数据问题变得更加切实可行。同理,它将客户调查引进了零售行业,将焦点讨论引进了政治界,也将许多人文问题变成了社会科学问题。
第三十五届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:zhangxuefeng

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。