首页 > IT业界 > 正文

鲁四海:《clickhouse生态与应用实践》

2021-12-23 11:05:22  来源:

摘要:2021年12月10-12日,“第七届中国行业互联网大会暨CIO班16周年年会”在北京召开。
关键词: 万山数据,clickhouse
2021年12月10-12日,“第七届中国行业互联网大会暨CIO班16周年年会”在北京召开。万山数据创始人鲁四海发表了“clickhouse生态与应用实践”主题演讲,详细介绍了clickhouse的生态情况,以场景为切入点分享了万山数据在行业的应用实践。
\ 
Why clickhouse?clickhouse最大的特点就是“快”,同时还具备实时在线、简单便捷、功能丰富等特点。
\ 
他谈到,clickhouse已经形成了一个丰富的技术生态体系,涉及了数据集成、数据处理、数据分析、数据应用和数据管理,旨在通过运用clickhouse和其衍生的支撑工具,破解当下企业数据治理与数据分析应用的难题,例如万山数据基于clickhouse自研的数据集成平台DBH实现了不同数据库实时数据拉取和推送。近年来,clickhouse生态体系随着中国互联网的高速发展和大数据的广泛应用得到了进一步的完善和发展。
\ 
 

基于clickhouse的敏捷数据中台

万山数据基于clickhouse自研的敏捷数据中台,包含了实时数据获取、数据备份溯源、数据仓库、数据治理、数据服务、数据挖掘等平台模块,具有自主、统一、微服务、敏捷、云原生、智能、实时、在线等八大特点。 
\ 

Clickhouse在实时数据交换共享场景中的应用

鲁四海分享了clickhouse在实时数据交换共享场景中的应用。在跨部门跨地区应用场景中,借助SDK、推送程序,数据源单位的应用程序、数据库只要支持JDBC驱动就能通过推送程序拉取数据,灵活高效。数据在数据源单位和数据接收单位之间传输时采用HTTP协议让接口使用方便,流式数据的传输方式缓解了系统资源压力,提高了数据传输效率,同时采用SM4国密加密保障数据共享交换过程的安全性。
\ 

Clickhouse在精准全文检索场景中的应用

在精准全文检索场景中,clickhouse方案解决了ES方案依赖中文分词,需要预建索引且查全率和查准率不高的问题。Clickhouse方案无需分词,无需预建索引,将查准率和查全率提高到90%以上,并且有可验证的明确的标准。

基于DBH的数据拉取和推送

基于clickhouse打造的数据集成平台DBH,在统一的clickhouse操作页面上,应用系统分析工具通过统一的SQL读写可对各种数据库进行操作,掌握 clickhouse就能操作不同类型数据库。
DBH支持一键配置MySQL、MariaDB、PostgreSQL、GreenPlum等开源数据库,SQLServer、Oracle等商业数据库,人大进仓、通用、达梦等国产数据库。DBH的白名单功能防止未经授权的未知IP篡改系统数据;读写控制避免了因为误操作往数据库里写入脏数据;字段级数据脱敏让数据可用不可见保证数据安全。DBH采用分布式架构,流式传输的方式,减轻系统资源压力。接入平台的数据库之间支持跨库拷贝。向多个数据库导入相同数据时,实现增量同步,平台自动统计写入成功的数据量。
\ 

“可追溯”的“实时”的数据修改

在OLAP场景下,我们认为数据不应该被修改,必须修改时也不能丢失原始数据。我们的做法是:不变动原库表数据,系统自动记录修改操作记录并实时生成修改视图,原始数据集与修改集自动合并,实时生成结果集。发现数据问题时从数据修改记录中快速定位问题所在,实现可追溯的实时数据修改。

“可追溯”的“实时”的数据质量管理

clickhouse处理速度快的特性结合文本的特点,我们实现了实时数据质量闭环管理。数据质量管理平台,支持从数据采集到数据应用的各个关键流程节点的数据质量检测。发现数据质量问题及时告警,并支持从算法和数据源进行溯源,再进行修正。质量报告和评估结果支持定时推送和一键生成。

面向海量数据的自主分析

与传统的数据分析工具不同,万山数据ABI工具实现了数据库里的数据表直接生成数据集,支持拖拉拽的方式实现数据聚合,跨系统数据关联。基于clickhouse“快”的特性实现了亿级数据秒级响应的即席查询功能,让计算不再等。字段级数据脱敏更是解决了数据广泛应用与数据安全保密的矛盾。

万山数据clickhouse企业套件

Clickhouse近年来发展迅速,功能丰富且强大,但大众对它的认识还处在初始阶段,配套工具还不够丰富,clickhouse在不同场景下需要搭配不同的工具才能发挥出奇效。万山数据自研的clickhouse企业套件提供图形化运维操作界面,告警和监控、进程守护等图形化操作功能,使运维管理工作更简单;支持多种系统数据在线迁移与调度,迁移过程无需中断业务;负载均衡、隐私计算实现图形化界面配置;数据存储与计算分离架构,实现存储自动扩展,计算能力按需添加;支持常见字典库扩展,自定义数据字典。
\ 
最后,他说道万山数据其实就处理一个问题:让企业在数据分析的时候操作更简单,解决数据在企业中应用的最后一公里难题。并分享了自己的开源观:
“开源不应只是代码,更重要的是想法;开源不是免费,而是能承载创新的自由”
“选择开源,选择共同创新,放弃单打独斗;选择开源,选择可持续发展,拒绝短命系统”。
 
 
 

第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:baxuedong

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。