• Spark SQL性能提升17.7倍是如何实现的?

    在互联网运营商等大规模、超大规模用户中,Spark是最受欢迎的大数据系统,Spark对于内存依赖性很强,所以当负载提高时,硬件平台的内存挑战就会十分明显

    发布时间:2019-11-13 15:15:41
  • Spark静态内存管理详解

    spark从1 6开始引入了动态内存管理模式,即执行内存和存储内存之间可以互相抢占。spark提供两种内存分配模式:静态内存管理和动态内存管理。

    发布时间:2018-12-19 10:05:33
  • Spark灰度发布在十万级节点上的实践

    Spark 灰度发布在十万级节点上的实践本文介绍了顶级互联网公司数万节点下 Spark 的 CI 与 CD & CD 灰度发布实践。包含如何维护源代码,如何维护 Release 多版本,开发版与正式版,以及如何实现灰度发布,如何进行 hotfix 等。为了提高本文内容的可借鉴性,隐去了公司特有内容,只保留通用部分。

    发布时间:2018-10-10 10:32:23
  • Spark的误解-不仅Spark是内存计算,Hadoop也是内存计算

    市面上有一些初学者的误解,他们拿Spark和Hadoop比较时就会说,Spark是内存计算,内存计算是Spark的特性。请问在计算机领域,MySQL,Redis,SSH框架等等他们不是内存计算吗?依据冯诺依曼体系结构,有什么技术的程序不是在内存中运行,需要数据从硬盘中拉取,然后供CPU进行执行?

    发布时间:2018-05-11 09:47:29
  • Spark高级应用—构建完整的机器学习pipeline

    欢迎下载CIO时代APP听微讲座!

    发布时间:2017-12-20 14:00:02
  • Spark Streaming vs. Kafka Stream 哪个更适合你

    数据必须快速地得到处理,以便企业能够实时地对不断变化的业务环境做出反应。流式处理是持续而又并发地对数据进行实时处理。流式处理是处理数据流或传感器数据的理想平台,而“复杂事件处理”(CEP)则利用了逐个事件处理和聚合等技术。对于实时数据处理功能,我们有很多选择可以来实现,比如Spark、Kafka Stream、Flink、Storm等。在这篇文章中,我将讨论Apache Spark和Kafka Stream的区别。

    发布时间:2017-06-28 10:52:41
  • Spark成云计算大数据时代的集大成者

    Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。

    发布时间:2015-05-15 15:15:30
  • Spark技术解析及在百度开放云BMR应用实践

    2015年1月10日,一场基于Spark的高性能应用实践盛宴由Databricks软件工程师连城、百度高级工程师甄鹏、百度架构师孙垚光、百度美国研发中心高级架构师刘少山四位专家联手打造。

    发布时间:2015-01-14 13:14:26