解读2015之大数据篇：大数据的黄金时代

2016-01-13 14:08:53 来源：36大数据抢沙发

2016-01-13 14:08:53 来源：36大数据

摘要：2015年，整个IT技术领域发生了许多深刻而又复杂的变化，InfoQ策划了“解读2015”年终技术盘点系列文章，希望能够给读者清晰地梳理出技术领域在这一年的发展变化，回顾过去，继续前行。
关键词：大数据

　　Elasticsearch：

　　Elasticsearch 是一个可伸缩的开源全文搜索和分析引擎。它可以快速地存储、搜索和分析海量数据。Elasticsearch 基于成熟的 Apache Lucene 构建，在设计时就是为大数据而生，能够轻松的进行大规模的横向扩展，以支撑PB级的结构化和非结构化海量数据的处理。Elasticsearch生态圈发展状态良好，整合了众多外围辅助系统，如监控Marvel，分析Logstash，安全Shield等。近年来不断发展受到广泛应用，如Github、StackOverflow、维基百科等，是数据库技术中倍受关注的一匹黑马。

　　Elasticsearch在今年下半年发布了2.0版本，性能提升不少，主要改变为：

　　Pipeline Aggregation

　　流式聚合，像管道一样，对聚合的结果进行再次聚合。原来client端需要做的计算工作，下推到ES，简化 client代码，更容易构建强大的查询。

　　Query/Filter 合并

　　取消filters，所有的filter语句自动转换为query语句。在上下文语义是query时，进行相关性计算;上下文语义是filter时，简单排除b不匹配的doc，像现在的filter所做的一样。这个重构以为着所有的query执行会以最有效的顺序自动优化。例如，子查询和地理查询会首先执行一个快速的模糊步骤，然后用一个稍慢的精确步骤截断结果。在filter上下文中，cache有意义时，经常使用的语句会被自动缓存。

　　可配置的store compression

　　存储的field，例如_source字段，可以使用默认的LZ4算法快速压缩，或者使用DEFLATE算法减少index size。对于日志类的应用尤其有用，旧的索引库在优化前可以切换到best_compression。

　　Hardening

　　Elasticsearch运行于 Java Security Manager之下，在安全性上标志着一个巨大的飞跃。Elasticsearch难于探测，黑客在系统上的影响也被严格限制。在索引方面也有加强： indexing请求ack前，doc会被fsync，默认写持久化所有的文件都计算checksum，提前检测文件损坏所有的文件rename操作都是原子的(atomic)，避免部分写文件对于系统管理员来讲，一个需求较多的变化是，可以避免一个未配置的node意外加入Elasticsearch集群网络：默认绑定localhost only， multicast也被移除，鼓励使用unicast。

　　Performance and Resilience

　　除上所述，Elasticsearch和Lucene还有很多小的变化，使其更加稳定可靠，易于配置，例如：

　　默认doc value，带来更少的heap usage，filter caching 更多使用 bitsets type mappings 大清理，更安全可靠，无二义性 cluster stat 使用diff进行快速变化传播，带来更稳定的大规模集群

　　Core plugins

　　官方支持的core plugins同时发布，和Elasticsearch核心使用相同的版本号。

　　Marvel 2.0.0 free to use in production

　　Marvel免费。

　　Apache Kylin：

　　Apache Kylin是一个开源的分布式分析引擎，提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据，最初由eBay Inc. 开发并贡献至开源社区。最初于2014年10月1日开源，并于同年11月加入Aapche孵化器项目，并在一年后的2015年11月顺利毕业成为Apache顶级项目，是eBay全球贡献至Apache软件基金会(ASF)的第一个项目，也是全部由在中国的华人团队整体贡献至Apache的第一个项目。

　　在eBay，已经上线两个生产环境平台，有着诸多的应用，包括用户行为分析、点击分析、商户分析、交易分析等应用，最新的Streaming分析项目也已经上线。目前在eBay平台上最大的单个cube包含了超过1000亿的数据，90%查询响应时间小于1.5秒，95%的查询响应时间小于5秒。同时Apache Kylin在eBay外部也有很多的用户，包括京东、美团、百度地图、网易、唯品会、Expedia、Expotional等很多国内外公司也已经在实际环境中使用起来，把Apache Kylin作为他们大数据分析的基础之一。

　　过去的一年多是Apache Kylin发展的重要的一年：

　　2014年10月1日，Kylin 代码在github.com上正式开源

　　2014年11月25日，正式加入Apache孵化器并正式启用Apache Kylin作为项目名称

　　2015年6月10日，Apache Kylin v0.7.1-incubating发布，这是加入Apache后的第一个版本，依据Apache的规范作了很多修改，特别是依赖包，license等方面，同时简化了安装，设置等，并同时提供二进制安装包

　　2015年9月6日，Apache Kylin v1.0-incubating正式发布，增强了SQL处理，提升了HBase coprocessor 的性能，同时提供了Zeppelin Interpreter等

　　2015年9月16日，Apache Kylin与Spark，Kafka，Storm，H2O，Flink，Elasticsearch，Mesos等一起荣获InfoWorld Bossie Awards 2015：最佳开源大数据工具奖，这是业界对Kylin的认可

　　2015年11月18日，Apache Kylin正式毕业成为Apache顶级项目

　　2015年12月15日，Apache Kylin v1.2正式发布，这是升级为顶级项目后的第一个版本，提供了对Excel，PowerBI，Tableau 9等的支持，对高基维度增强了支持，修复了多个关键Bug等

　　2016年，Apache Kylin将迎来重要的2.x版本，该版本对底层架构和设计作了重大重构，提供可插拔的设计及Lambda架构，同时提供对历史数据查询，Streaming及Realtime查询等，同时在性能，任务管理，UI等各个方面提供增强。

　　同时，过去一年也是社区发展的重要一年，在过去一年内发展了来自eBay，美团，京东，明略数据，网易等众多committer，社区每天的讨论也是非常热闹。社区提交了很多新特性和Bug修复，包括来自美团的不同HBase写入，来自京东的明细数据查询，来自网易的多Hive源等多个重大特性为Apache Kylin带来了巨大的增强。

　　社区合作

　　在开源后的一年时间内，Apache Kylin也和其他社区建立了良好的合作关系，Apache Calcite作为Kylin 的SQL引擎被深入的整合进来，我们也向Calcite提交了很多改进和修复，Calcite的作者，Julian Hyde也是Kylin的mentor。HBase是Kylin的存储层，在实际运维中，我们碰到过无数问题，从可靠性到性能到其他各个方面，Kylin社区和HBase社区积极合作解决了绝大部分关键问题。另外，现在越来越多的用户考虑使用Apache Zeppelin作为前端查询和展现的工具，为此我们开发了Kylin Interperter并恭喜给了Zeppelin，目前可以直接从最新版的Zeppelin代码库中看到这快。同样，我们也和其他各个社区积极合作，包括Spark，Kafka等，为构建和谐的社区氛围和形成良好合作打下了坚实的基础。

　　
第三十五届CIO班招生
国际CIO认证培训
首席数据官（CDO）认证培训

责编：pingxiaoli

免责声明：本网站（http://www.ciotimes.com/）内容主要来自原创、合作媒体供稿和第三方投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
本网站刊载的所有内容（包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等）版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时，请及时通知本站，予以删除。