多源数据融合:大数据分析的瓶颈
多源数据融合:大数据分析的瓶颈
2016-05-05 11:03:52 来源:36大数据
抢沙发
2016-05-05 11:03:52 来源:36大数据
摘要:利用互联网购物的营销数据来追踪和勾画消费行为并以此为据促销是大数据应用的成功典型案例。
关键词:
大数据
利用互联网购物的营销数据来追踪和勾画消费行为并以此为据促销是大数据应用的成功典型案例。有些人已此将大数据吹得神乎其神,好像它能成为万能药。其实,这只是大数据应用中的很小一部分。作为智能决策的支持手段之一,大数据在企业、事业、政府、社会管理和发展上的应用是更重要的挑战。在这里,多源数据的融合就成为大数据分析中的瓶颈。
数据处理新工具使数据科学家从数据准备的繁琐工作中解放出来,但如何根据每个数据分析项目量体定制,融合多源数据以形成有效的分析数据集仍是数据科学家必须面对的一个更具挑战性的瓶颈。
每个亲身参加过大数据项目的数据科学家、数据分析师、数据库管理员都会告诉你,项目的80%的时间和经费花在数据的准备工作上。这其中多源数据的融合是最耗费资源的任务之一。难怪最近纽约时报惊呼:“数据科学家把高达 80%的时间用于数据准备而不是用来发现新的商业智能”。
传统的统计分析经常是对单一数据源(营销数据、行政报表、问卷调查、人口普查等)进行深入的追踪和分析。分析人员对数据的来源和结构有一定的控制和深层的了解。在大数据时代,数据源是多样的、自然形成的、海量的数据常常是半结构或无结构的。这就要求数据科学家和分析师驾驭多样、多源的数据,将它们梳理后进行挖掘和分析。在这个过程中,数据融合(data blending)就成为不可或缺的一步。
数据融合与数据仓库(Data Warehouse)、数据一体化(Data Integration)不同。它的目的不是将一个企业(Enterprise)或组织的所有数据集中在一起并标准化而产生唯一的真相(Single Truth)。它是以产生决策智能为目标将多种数据源中的相关数据提取、融合、梳理整合成一个分析数据集(Analytic Dataset)。这个分析数据集是个独立的和灵活的实体,可随数据源的变化重组、调整和更新。数据融合胜于数据仓库和数据一体化的另一点是它能包容多源数据。
第四十一届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:pingxiaoli
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。