【第六届中国大数据应用论坛】童小军:开放型大数据基础平台生态建设和PB规模集群规划设计

2017-07-17 17:01:43  来源:CIO时代网

摘要:2017年7月16日,“第六届中国大数据应用论坛”在北京大学中关新园隆重举行。红象云腾董事长、第十五届北大CIO班学员童小军在活动中发表了题为《开放型大数据基础平台生态建设和PB规模集群规划设计》的主题演讲。
关键词: 大数据 规划设计
  2017年7月16日,由中国新一代IT产业推进联盟指导,CIO时代学院主办,北大软件工程研究所、全国高校大数据教育联盟、北达软协办,CIO时代APP承办的“第六届中国大数据应用论坛”在北京大学中关新园隆重举行。红象云腾董事长、第十五届北大CIO班学员童小军在活动中发表了题为《开放型大数据基础平台生态建设和PB规模集群规划设计》的主题演讲。以下为演讲实录:
 
  \
  红象云腾董事长、第十五届北大CIO班学员  童小军
 
  非常感谢有机会给大家介绍红象云腾在大数据领域的发展情况与成果。
 
  一、红象云腾已经发展成拥有国际品牌的公司
 
  1.红象云腾(Redoop)品牌溯源
 
  红象云腾是Hadoop,主要的工作是构建中国国内的Hadoop发行版。Hadoop标志是大象,红色是中国色,红象代表中国的Hadoop厂商。RedOop是原品牌RedHadoop缩写而来。CRH全称“China Redoop HyperLoop”,代号“数据高铁”,分布式动力,处理速度快。红象立志成为“全球开源大数据基础软件旗舰厂商”。红象云腾的创立者源自互联网公司,是中国Hadoop社区最早的建设者。
 
  2.发展历程
 
  过去,我是在互联网公司,从事大数据研发工作,后来成立了红象云腾公司并拿到天使轮融资。在2015年,红象云腾签约联想,研发CRH2.0,另一个较大的案例是在中国航天完成了大规模的部署,它是非常有意义;在2016年,红象云腾与IBM合作推出了openpower版的Hadoop,此时公司进入了快速发展阶段;在2017年,Hadoop平台已经支持除了X86、openpower,也支持飞腾芯片、龙芯等,为它们提供Hadoop版本。
 
  二、产品高地-国产化、航天和工业
 
  红象云腾摸索向前。Hadoop是开源软件,作为一家立足于做中国Hadoop的厂商,大家会有很多质疑,但我们一直在努力。
 
  在自主可控方面,红象云腾已经完成了对于国内五种芯片架构的支持,包括飞腾、龙芯、申威、兆芯和宏芯。红象云腾全面支持国产操作系统,与国防院校合作。在航天工业方面,已经服务于五颗卫星。在业界对品牌认同的同时,也是得到了竞争对手的认可。
 
  ODPI代表的是开放的数据平台的标准。红象云腾是第二家加入ODPI标准的,红象研发的产品严格遵循ODPI的开放标准。
 
  三、基础设施大数据案例场景
 
  下面给大家介绍一下红象云腾的案例,主要来自于基础设施行业。
 
  1.客户分类
 
  在2014年,红象云腾的客户包括石油行业的大港油田,内容包括地下几千米石油勘探和钻井数据。在2015年,接触到联想和航天卫星的数据。在2017年,红象服务了华星光电和广东省公安厅,客户包括昆仑保险经纪、卡斯柯等。
 
  2.数据规模
 
  从数据规模方面,红象云腾常见的客户数据量是几百TB,最大的客户是来自于航天的,至今积累数据的规模达5个PB。例如辽河大桥,一个月会产生700G左右的数据;地铁系统,上海地铁往返一次会产生5G的数据;工厂电机每时每刻都在产生数据。每天,每个行业都会产生大量的数据。
 
  3.处理速度
 
  如今,数据量的提升要求对数据处理的速度越来越高。例如气象类的数据,要求在十几分钟内完成,才能呈现它的价值;电机的数据,数据产生和处理周期要求到秒级,滚动设备在毫秒级内才能发现其波动,这意味设备产生数量规模和精度在变高,从原来的几十米、几米到零点几米,时间粒度加强,从分级到秒级再到毫秒级。
 
  4.应用领域。
 
  红象云腾在基础设施大数据领域积累了很多客户,包括航天、交通、公安方面。在广东省公安厅,红象有两套集群部署,几十个亿的数据在平台上运行,查询速度在秒级以内。
 
  5.项目案例-航天遥感
 
  在航天遥感方面,我们服务了五颗卫星,整个集群规模预计将突破200台,数据量有10PB左右,服务的下游单位近3000多家,红象已经稳定运行了一年半,将来会服务更多的卫星。
 
  四、客户的本质需求
 
  客户的需求是安全稳定、坚若磐石。稳定性是最迫切性的要求。对于Hadoop,最核心是如何保证Hadoop本身的性能和稳定性,如何做到安全稳定,吞吐量大,这是红象云腾要做的事情。
 
  1.客户的几种问题
 
  客户会遇到的几种常见问题包括:计划错了、预算算错、设备买错、软件配错、维护搞错几个方面。很多企业认为系统不需要维护,实际上,应经常检查整个Hadoop的状态。对于系统的设计,要做好整个系统的设计,包括主Hadoop、备Hadoop、数据备份、网络规划等。
 
  2.系统概要架构
 
  Hadoop是一套集中式架构设计,IOE。它的主要瓶颈是计算瓶颈、带宽瓶颈、磁盘读写瓶颈。我们把Hadoop比喻成高铁,整个集群架构设计,目标支持扩容到3000台。红象云腾将网络规划成两层网络,当主Hadoop宕机时,备Hadoop保证业务的正常运行,最关键的是头节点的设计,它是整个Hadoop的核心节点,瘫痪会影响整个集群的安全稳定。同时,红象给客户提供了非常好的巡检制度,共同监督,保证系统稳定性的同时,将异构计算资源引入其中。
 
  五、创业公司如何做生态?
 
  作为一个创业公司,红象云腾的理念是把自己融入不同的生态当中成为关键环节。红象云腾将自己融入到了Openpower的生态中,成为芯片厂商Hadoop的关键环节。同时,我们具备扩展性,不仅有软件,还做了应用市场。
 
  红象云腾经过五年的发展,得到了很多厂商的认可,不仅与IBM、微软有较好的合作,与国内的软硬件厂商也建立了良好的合作关系。红象云腾的核心价值是给客户提交一个安全稳定、坚若磐石的产品。红象用了前五年做铺垫,为后十年发展打下坚实基础。
 
  希望红象云腾能一直走在时代前沿,给大家带来更多的大数据支持。谢谢大家!
责编:houlimin
分享到: