多源数据融合:大数据分析的瓶颈
多源数据融合:大数据分析的瓶颈
2016-05-05 11:03:52 来源:36大数据
抢沙发
2016-05-05 11:03:52 来源:36大数据
摘要:利用互联网购物的营销数据来追踪和勾画消费行为并以此为据促销是大数据应用的成功典型案例。
关键词:
大数据
数据融合有六个基本步骤:
连接所需多源数据库并获取相关数据
研究和理解所获得的数据
梳理和清理数据
数据转换和建立结构
数据组合
建立分析数据集
这个过程的每一步都需要数据工作者认真细致的思考、辨认、测试、清理、最后产生可信赖、有意义的分析数据库。在过去,这个数据准备过程很大程度上是通过手动,十分费时和艰辛。即使有数据处理的软件(如Excel, SAS, SPSS等),每个数据工作者也都是自己使用所熟悉的工具,形成个性化的,充其量是半自动的数据准备程序。最近几年,大数据技术公司将数据处理整合过程中相关技术集合,组合,提升后开发出专门用于数据融合的新工具。应用这些直观、可视、高效的软件工具,数据准备的过程的工效大大提高,在一定程度上解决了数据融合的技术瓶颈。
数据融合的另一瓶颈是思维。打个比方,数据融合就像水泥的现场合成。水泥制作可以从人工搅拌变为机械合成,提高了工效。但水泥配置仍需要正确的配方;沙、石、混凝土的比例,以及相关化学成份的添加对达到水泥的质量标准至关重要。数据处理新工具使数据科学家从数据准备的繁琐工作中解放了出来,但如何根据每个数据分析项目量体定制,融合多源数据以形成有效的分析数据集仍是数据科学家必须面对的一个更具挑战性的瓶颈。
多源的数据可以归纳为三大类:
一手数据(Primary Data),包括企业或组织直接采集掌控的内部运行数据和营销数据,
二级数据(Secondary Data),第三者采集、整理、和提供的二手数据,如经济指标、人口普查、民意调查、网路数据等,
科学数据(Scientific Data),包括科学研究 的成果、指数、算法、模型等。
这三类数据为数据为驱动的智能决策提供了不同的观察角度。一手数据具体、灵活、快速积累能够实时或接近实时地为决策者提供监测、追踪、描述信息。二级数据一般是定期公布的数据,它能提供国家、地区、行业的状况信息,成为数据分析中的可比性坐标。科学数据的更新是不定时的,但它代表着目前科研成果,对数据分析的建模和算法提供科学基础。在大数据分析项目中,数据科学家需要针对具体研究课题同时收集、整理、融合相关的三类数据。数据科学家的水平就体现在将三类数据合理、有效、有意义的融合上。
数据融合是目前大数据应用和智能决策过程中一个瓶颈。这个挑战引发了新一轮大数据工具的快速发展。根据2016年高德纳公司数据管理和分析软件工具的评估报告,自我服务式数据准备软件(Self-service Data Preparation)已成为发展最快的工具之一。这一发展趋势应引起我们的关注。同时,数据融合的思维瓶颈仍是所有数据科学家必须面对的更高层次的挑战。
第四十一届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:pingxiaoli
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。