可能很多人理解的数据仓库就是基于多维数据模型构建,用于OLAP的数据平台,通过上一篇文章——数据仓库的基本架构,我们已经看到数据仓库的应
在数据分析领域,Session是一种专业的数据分析。对于有数据驱动意识的互联网人来说,这并不陌生——Session 即会话,是指在指定的时间段内在
对于大数据征信而言,分类信息的聚合与集中是提升征信可靠度的必要路径。央行征信管理局局长万存知近期也明确提到,“由第三方机构牵头,很多
早期我们和竞争对手打的时候,双方的技术都比较初级。后来慢慢的,爬虫在升级,反爬虫也在升级。这个我们称为“进化”。我们曾经给对方放过水
ElkCloner是第一个已知被广泛传播的计算机病毒。它由Richard Skrenta在35年前创建。这种病毒或多或少是一个恶作剧,虽然这对于在软盘上意外感
三维空间是无限大的,在某个实际场景,假设我们有了解决某个问题的数据的全集(或者说是无限的数据),基于这些数据我们得到的优化函数的所有
随着在CDH平台上物联网(IoT)使用案例的不断增加,针对这些工作负载的安全性显得至关重要。本篇博文对如何以安全的方式在Spark中使用来自Kafka
Kakfa起初是由LinkedIn公司开发的一个分布式的消息系统,后成为Apache的一部分,它使用Scala编写,以可水平扩展和高吞吐率而被广泛使用。目前
尽管Python在数据科学领域在近些年已经吸引了很多注意力,我们想要基于我们的经验,大概描述一下数据科学家和工程师最常用的也是最有用的Pyt
随着中国健康医疗大数据股份有限公司20日宣布筹建,加上此前正在筹建的中国健康医疗大数据产业发展集团公司和中国健康医疗大数据科技发展集团