首页 > 大数据 > 正文

Hadoop和企业信息管理:利用大数据的解决方案

2018-03-09 10:24:05  来源:51CTO

摘要:今天,Hadoop可以提供一个能容纳大型复杂的业务应用程序数据处理基础设施。以大数据为处理模型的核心,运行在Hadoop上的典型业务系统包括三个不同的层:基础结构层、数据层和分析层。
关键词: Hadoop 大数据
  过去几年,大数据在全球商业环境中的重要性已得到坚定的确认。2017年看起来是 Apache Hadoo pimplementation (在开源开发和更多的商业选择方面)在企业层面上,由于企业信息管理(EIM)仍然需要更多改进的大数据解决方案。

  数据仓库现代化、Hadoop项目级的采用和数据湖泊的使用的早期(和持续)趋势可能会继续以更快的速度向前发展。在版本1和2之间,Hadoop已经从一个主要面向批处理的处理器发展为一个强大的、实时的数据处理器,它可以处理企业级的大数据应用程序以及更传统的遗留数据集。

\
  今天,Hadoop可以提供一个能容纳大型复杂的业务应用程序数据处理基础设施。以大数据为处理模型的核心,运行在Hadoop上的典型业务系统包括三个不同的层:基础结构层、数据层和分析层。因此,诸如MapR或Cloudera这样的商业平台供应商可能会发现很容易将Hadoop架构定位为满足大多数企业需求的全方位实用平台。

  现代企业中的数据爆炸

  “福布斯”的一篇标题为Hadoop为企业黄金时段做好准备的5个原因的博文,解释了数据爆炸如何迫使组织通过第三方来扩展他们的业务应用程序,而不需要进行大量投资。在托管服务场景中,企业不必担心基础设施、内部数据中心或专家人力--从而将全部时间和精力用于加快交付速度。

  最新的“锦上添花”是Hadoop的开源解决方案的稳定供应,它将这个独特的数据平台的功能和能力扩展了几倍。对于供应链系统,这个故事有点不同。Hadoop是什么?它对供应链管理意味着什么?一文认为,作为供应链的基础,风险评估应用程序是大量的“非结构化数据”,“Hadoop与MapReduce和HDFS为供应链项目中的风险评估和缓解提供了一个强大的组合。

  面向企业信息管理的Hadoop

  商业数据集已经超越了数据库,扩展到了网络轨迹、GPS数据、传感器数据和社会数据。新的“数据环境”需要先进的技术和工具来利用大量的多结构数据,如果使用正确的工具处理,就能产生有利可图的智能和视觉效果。文章还强调,庞大的数据量使我们有必要找到节省成本的技术解决方案来存储和处理这些数据。Hadoop是支持大数据的技术的极好解决方案,可以为业务用户提供真正的好处。

  Seed分析小组探索EIM面临的大数据挑战,在那里,大数据分析被证明是在激烈竞争中取得成功的核心区别因素。像LinkedIn这样的公司已经利用“大数据分析”领先于竞争。有趣的观察是,许多领先的软件供应商已经将Hadoop作为他们首选的大数据应用程序平台。

  在全球范围内,鼓励企业开始规划Hadoop上的大数据和大数据分析,如果它们还没有这样做的话。在这里,企业数据框架已经被明确地定义为四个连续的步骤:数据采集、数据清理、数据处理和智能收集。一篇题为“大数据分析时代企业数据仓库的角色演变”的行业白皮书试图解释大数据技术需要适应传统的进入企业信息管理模式。

  “数据库趋势与应用”杂志报道了2017年数据和信息管理中的趋势设定产品,最近,云已经成为组织间一个顶级的数据存储平台。参加本次2016年DBTA调查的大多数组织有超过100TB数据。

  Hadoop上的大数据

  Apache的Hadoop最流行的开源版本需要高级的技术技能,而订阅Hadoop -as-a- service可以减轻客户机的维护负担。HP与HortonWorks合作,在Hadoop和它自己的大数据技术之间建立了一个坚实的技术联盟。

  在这一广谱的另一端,IBM提供了在云中的基于前提和托管的Hadoop版本。到目前为止,许多想要管理多结构的大数据的组织可能会依赖Hadoop来交付理想的结果。真正的挑战在于为Hadoop数据库和它们的内部应用程序选择合适的分析解决方案。

  数据湖:独特的Hadoop仓库

  数据湖有能力以不同的格式摄取原始数据,并且可以很容易地扩展到pb级。在数据湖中存储原始数据的最大好处是,数据可以反复地重新定义业务需求和需求。这允许以最灵活的格式保存数据以适应任何新的应用程序。

  在Hadoop上构建大数据用例

  构建Hadoop基础设施的一个有效方法是通过大数据用例。为了建立最佳用例,组织首先需要人力——一组能干的数据架构师和能够根据现有数据可视化和构建解决方案的数据科学家。与这些专家一起,组织还需要数据分析师和商业情报专家从数据中提取洞见。在理想的情况下,这是一个多努力的练习,需要广泛的技能和经验。

  2017年的数据管理趋势表明,Hadoop存储设备的巨大成本优势使其成为现代企业数据存储的首选。DataLake保存原始格式数据的强大功能使其能够在不同的应用程序中重复使用该数据。

  Gartner发布了一张有用的信息图表,以帮助理解Hadoop为什么能够提供企业信息管理系统提出的大部分数据需求,这就需要适当地整合领域、路线图、流程、工作流程,并充分关注数据治理,从而推动所希望的结果。

  这张图还试图描述首席数据官的作用,他最好能领导大型企业信息网络中的数据治理和数据管理工作。

  展望未来

  随着企业数据量在战略上的重要性不断提高,传统的企业数据仓库将继续演化为更大更复杂的数据架构。从高层管理人员到车间经理,每一个商业用户都可能开始利用大数据应用程序来审查、分析和报告日常业务操作中的关键任务信息。

  此外,如机器学习和深度学习等先进技术包含在企业大数据应用程序中,用于预测建模、针对客户、产品定价或建议,像Hadoop这样的开源平台可能是成本高效的企业信息管理解决方案的完美答案。这些趋势将持续到2017年(及以后),并将通过Hadoop的sql化以及物联网(物联网)的增长而得到加强。
第三十五届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:zhangxuefeng

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。