首页 > 大数据 > 正文

如何避免大数据分析项目的失败

2018-01-02 11:17:46  来源:企业网D1Net

摘要:大数据和分析项目可以是颠覆性的,它会使你具有洞察力来超越竞争对手,创造新的收入来源,更好地为客户服务。
关键词: 数据分析
\
  大数据和分析项目可以是颠覆性的,它会使你具有洞察力来超越竞争对手,创造新的收入来源,更好地为客户服务。

  大数据和分析项目也可能导致巨大的失败,导致浪费大量的资金和时间,更不用说会失去那些有才华的技术人才,他们对管理层犯得错误感到失望和厌烦。

  如何避免大数据项目的失败呢?从基本业务管理的角度来看,有一些最佳做法值得推荐:一定要获得公司最高管理层的支持和认同,确保技术投入所需的资金充足,并配备所需的专业技术和/或提供良好的培训。如果你不首先解决这些基本问题,那么其他的事情都不重要。

  假设你已经完成了这些基本的工作,那么在大数据分析项目中成功与失败的区别就在于你如何处理大数据分析的技术问题和挑战。你可以做以下几点来确保大数据分析项目的成功。

  1. 谨慎选择你使用的大数据分析工具

  许多技术上的失败都源于这样一个事实,即企业所购买和部署的产品,结果是完全不适合他们想要完成的工作。任何供应商都可以将“大数据”或“高级分析方法”一词放到产品描述中,以利用这些术语大肆炒作。

  但产品在质量和效果以及侧重点上,都有很大的差别。因此,即使你选择了一种技术含量高的产品,它也可能并不擅长做你真正需要完成的工作。

  几乎所有的大数据分析产品都具有一些基本的功能,比如数据转换和存储架构(比如Hadoop和Apache Spark)。但是在大数据分析产品中也有很多细分领域,所以你必须为你的技术战略实际所涉及到的领域来购买产品。这些领域包括过程挖掘、预测分析、实时解决方案、人工智能和商业智能控制面板等。

  在决定购买任何大数据分析产品或存储平台之前,您需要清楚真正的业务需求和问题是什么,然后选择那些能有效解决这些具体问题的产品。

  例如,由于编译海量数据集极具复杂性,您会选择认知大数据产品,这些产品会使用人工智能来分析非结构化数据。但是,您不会将认知大数据工具用于分析结构化和标准化数据,因为您可以从众多分析产品中选择一种产品进行部署,并且以更合理的价格实时获得高质量的洞察力,沃达丰电信公司大数据全局分析主管伊思雷尔·埃斯波西托(Israel Exposito)说。

  埃斯波西托表示,在为你的生产环境选择一款产品之前,至少要使用两种产品来进行概念证明,这是很明智的。该产品还应该能够与您的相关企业平台进行交互。

  每个大数据分析工具都需要在后端系统中开发一个数据模型。这是该项目中最重要的部分。 所以,您需要确保系统集成商和业务领域相关专家能携手合作,花些时间把工作第一次就做好。

  务必记住,正确的数据应随时可以使用并翻译成业务语言,这样用户就可以充分理解这些输出结果,从而可以使用这些结果来推动商机或改进流程。

  2. 确保工具易于使用

  大数据和高级分析方法是很复杂的,但商业用户用来访问和理解这些数据的产品则并不需要很复杂。

  为业务分析团队提供简单、有效的工具,用于数据发现、分析和可视化。

  GoDaddy公司商业智能工具企业数据拓展专员莎伦·格雷夫斯(Sharon Graves)表示,对于域名注册商GoDaddy来说,寻找合适的工具组合是很困难的。它必须易于快速可视化,并且能够进行深入分析。GoDaddy公司能够找到这些产品,让商业用户可以利用这些产品轻松找到适当数据,然后自行生成可视化效果。这就让分析团队有时间来处理更多的分析工作。

  最重要的是,不要向非技术性的商业用户提供程序员级别的工具。这样他们会变得沮丧,可能会使用他们以前的工具,而这并不能满足目前的工作(否则,你就不会实施大数据分析项目)。

  3. 调整项目和数据,使其符合实际业务需求

  寻找错误的数据分析工作可能失败的另一个原因是,因为这项工作最终变成用于寻找那些并不存在的问题的解决方案。这就是为什么你必须把你正在寻求解决的业务挑战/需求摆在正确的分析问题上,信息服务提供商益博睿(Experian)全球数据实验室的首席科学家Shanji Xiong说。

  关键是要在项目早期就邀请具有很强分析背景的业务专家与数据科学家合作来定义问题。

  这是益博睿公司自己的大数据分析项目的一个例子。在设计分析解决方案以打击身份欺诈过程中,所面临的挑战可能是评估个人身份信息(PII)(如姓名、地址和社会保险号码)是否合法。或者,面临的挑战可能是评估使用一组身份信息来申请贷款的客户是否是该身份信息的合法拥有者。或者这两种挑战可能同时存在。

  Xiong说,第一个挑战是“合成身份”问题,这需要在消费者或个人身份信息级别开发出一个分析模型来评估合成身份的风险。第二个挑战是欺诈申请问题,评估欺诈风险的得分则需要在申请级别进行开发。益博睿公司必须理解这些是不同的问题,尽管它们可能最初被认为是同一问题的不同表述,然后建立了正确的模型和分析方法来解决这些问题。

  当一组个人身份信息被提交给两家金融机构申请贷款时,通常要求对综合风险所返回的评分是相同的,但这通常不是欺诈申请评分的必要功能,Xiong说。

  正确的算法必须应用于正确的数据,以获取商业智能并做出准确的预测。在建模过程中收集和包含相关数据集几乎始终是比微调机器学习算法更重要,所以数据工作应该被视为重中之重。

  4. 建立一个数据湖,不要吝啬带宽

  顾名思义,大数据涉及海量数据。在过去,很少有组织能够存储这么多数据,更不用说对数据进行组织和分析了。但是现在,高性能存储技术和大规模并行处理在云端和基于本地系统都得到广泛使用。

  然而,存储本身是不够的。您需要一种方法来处理为大数据分析所提供的不同类型的数据。这正是Apache的Hadoop软件的功能,它可以对海量的和不同的数据集进行存储和映射。这种存储库通常被称为数据湖。一个实际的湖泊通常是由多个溪流汇集形成的,它包含许多植物、鱼类和其他动物,而数据湖通常由多个数据源提供数据,并包含许多类型的数据。

  但数据湖不应该成为数据的垃圾场。亚利桑那州立大学(Arizona State University)计算机运算研究主任杰伊?埃切斯(Jay Etchings)表示,你需要考虑如何来汇总数据,并以一种有意义的方式来扩展属性。数据可以是完全不同的,但是如何使用像MapReduce和Apache Spark这样的工具对数据进行转换用于分析,这应该使用一个可靠的数据架构来完成。

  建立一个数据湖,在这个数据湖中,数据的摄入、索引和标准化是大数据策略精心规划的组成部分。埃切斯说,如果没有清晰的理解和明确的蓝图,大多数数据为主导的项目注定要失败。

  同样,拥有足够的带宽是至关重要的,否则,数据不会从不同的数据源移动到数据湖中,并且商业用户也不会很快获得效果。埃切斯说,要实现拥有海量数据资源,不仅需要每秒能够处理数百万I/O(IOPS)的快速磁盘,而且还需要对节点和处理引擎进行互联,可以随时访问数据。

  从社交媒体发展趋势到流量路由,速度对于实时分析尤其重要。因此,要在最快的互连环境中创建你的数据湖。

  5. 在大数据的方方面面进行安全性设计

  计算基础架构组件的高度异质性大大加速了组织从数据中获取有用见解的能力。但也有一个缺点,即系统的管理和安全要复杂得多,埃切斯说。由于涉及海量数据以及大多数大数据分析系统的任务极为重要,未能在保护系统和数据方面采取足够的预防措施,那么这在很大程度上是自找麻烦。

  公司所收集、存储、分析和共享的大部分数据都是客户信息,其中一些是个人的和可以识别的信息。如果这些数据落入不法分子之手,结果可想而知:公司会因诉讼而导致金钱损失、可能会受到监管部门的罚款、品牌和声誉受损,以及客户的不满。

  您的安全措施应该包括部署基本的企业工具:实用的数据加密、身份和访问管理以及网络安全。但是,您的安全措施还应该包括有关正确访问和使用数据的培训和策略实施。

  6. 将数据管理和质量放在首位

  确保良好的数据管理和质量应该成为所有大数据分析项目的标志,否则失败的可能性要大得多。

  您需要实施控制措施,以确保数据是最新的、准确的并能够及时交付。作为大数据项目的一部分,GoDaddy公司实施了警报功能,如果数据更新失败或超时,则会通知管理人员。此外,GoDaddy公司还对关键指标实施了数据质量检查,当这些指标与期望值不一致时发送警报。

  确保数据质量和治理的一个重要内容就是雇佣熟练的数据管理专业人员,包括数据管理主管或其他管理人员来监督这些领域。鉴于这些项目的战略重要性,企业拥有对数据管理、操作、治理和策略的数据所有权是极为必要的。
第三十五届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:zhangxuefeng

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。