【2018中国互联网技术大会】UCloud季昕华:数据流通带来无尽价值

2018-12-11 17:07:54

来源:CIO时代网

  2018年12月9日,以"互联网技术赋能下的行业变革"为主题的"2018年中国互联网技术大会"在北大中关新园如期举行。本次大会由中国新一代IT产业推进联盟指导,CIO时代学院主办,CIO时代APP承办。现场座无虚席,近200位互联网行业精英济济一堂,紧扣大会主题展开热烈讨论,各抒己见。UCloud创始人兼CEO季昕华在论坛上发表了题为《数据流通带来无尽价值》的主题分享。以下为演讲实录:
\
  很高兴有机会能够跟大家交流一下关于数据流通方面我们最近的一些想法和思路。所有创业公司首先考虑的第一个问题是成本问题,但成本问题解决了之后,考虑的第二个问题是流量问题。大家知道现在流量成本非常高,而且流量都掌握在BAT或者是七雄手上,像阿里、腾讯、百度、头条、美团、京东等等。创业公司如何获得更多的数据?
 
  传统企业的数据非常多,但是传统企业缺少一些好的数据分析能力的团队和好的技术,所以他需要能够把数据分析出来,但是传统公司的问题是数据能不能被别人分析。我们都知道人工智能和大数据需要非常多的数据,我们认为大数据和人工智能对于数据的需求分为几个方面:一是数据要足够大,数据大才有价值;二是数据要多,数据必须要具备不同种类的数据合在一起才有价值;三是数据要足够热,只有热数据而不是离线数据才有价值,这样才能实现闭环;四是数据要足够稀有才有价值,如果这个数据每个人都有,那就没有价值。在一个安全的环境下,把多方的数据能够融合在一起进行交叉的分析,然后原始数据不会被拿走的状态,所以我们认为安全、流通才有价值。
 
  如果数据流通但得不到保护,这是各位最头疼的情况,UCloud可以提供这样一个实现数据流通并且安全的环境,这在大数据时代、在人工智能时代特别有价值。人工智能公司最大的特点是什么呢,是非常好的算法和数据分析能力,但是大部分的人工智能公司都缺少数据。怎么让数据源将数据脱敏提供给你们,这就是数据流通主要要解决的问题。
 
  数据流通困境
 
  传统企业客户对数据开放共享的诉求什么?数据安全,数据安全性重于泰山,开放数据时如何保证数据安全性;应用场景,数据累积越来越多,对数据可使用的更多场景缺乏探索能力;数据定价,数据变现不好衡量价值,数据定价体系如何构建;算力支持,技术储备不足,环境不允许,在面对多样化的数据需求时心有余而力不足。
 
  数据流通的常见场景
\
  同一公司不同部门之间数据流通、不同组织之间的数据共享、单数据源对外开放。第一个场景是同一集团公司的不同部门。最典型的就是腾讯,比如说QQ部门要拿到微信数据是不可能的,因为各部门均业务导向,起初设计独立;部门间数据并非互补特性,不愿意单方面提供;各部门重视自身权责,数据开放风险不愿承担。所以我们需要建立组织内的多部门间数据共享模式。第二个场景是不同组织之间的数据共享。业务互补先关,缺乏联合意识;数据安全风险过大,不敢开放;无共同目标,这些因素导致不同组织间的数据无法共享。第三个场景是单数据源对外开放。数源积累越来越多;对数据可复用场景缺乏探索;需求方诉求多而无法消化。
 
  那数据提供方、数据的需求方其实还可以通过分布式记帐、区块链的技术,来为所有的操作进行记录,通过安全手段、通过智能合约审批来实现整个过程的可控,然后还可以进入第三方监管方。这在很多金融机构或者政府、医院都很有价值。我们把需求方引进来。需求方可以在这里给我们提供服务,有很多传统企业他是有数据的,但是他不具备分析能力。我们现在的模式是可以把数据放在我们这里来,也可以把数据放在本地,实现本地和远程都能实现数据融合。
 
  这是一个典型的技术层面,包括资源平面、控制平面、业务平面,通过这种模式来确保数据是在安全可控的范围内来实现数据的分享。上面的业务平面是三种数据:第一种是基于数据库的格式化数据,像MySQL这种模式,传统的多种结构的数据交换有价值,特别适合有很多传统企业公司为了做交换营销就特别合适。另外是基于KV型的,有很多互联网公司具有的KV数据可以做交换营销。第二种是基于非格式化数据,比如说图片、视频,特别是医院的数据可以发上来。第三种是基于AI的。这三种数据我们都可以支持。
 
  五项核心技术
\
  我们实现了数据的使用权和所有权分离,而且所有用户在线上就可以完成。我们这有五项核心技术:
 
  第一项技术,我们实现了数据的安全融合。通过UIE的技术分布式的AI训练,能够实现在不泄露原始环境下数据的不同融合。这个分布式AI计算是挺有意思的,因为现在要做AI必须要有数据,但是数据汇总在一起有三个门槛:第一个门槛是数据不愿意集中,每个人都有自己的数据,都不愿意把自己的数据给别人。第二个门槛是数据传输成本很高。像医疗影像数据几百个T,几个P,要把数据传过来需要成本。第三个门槛是集中式AI分析,大规模GPU集群,内部带宽要求很高。所以我们分布式AI。
 
  第二项技术,我们有加密机制,通过私钥生成器来做这个事情,一次一密,确保你的数据是被你所控制的。作为一个中立的第三方平台,依托主要的数据安全融合技术和加密机机制保障数据源安全,并且实现数据源间的融合,赋能数据价值。
 
  第三项技术,砂箱技术,确保数据是在安全的环境内计算,不会离开砂箱。数据沙箱保证数据可用但不可下载,采用的技术有VPC、堡垒机、区块链、WebVNC。
 
  第四项技术,区块链来做审计,确保所有的操作都可以被记录下来,包括对我们的操作,对云厂商的操作都被记录下来。区块链技术运用在数据交易的监控审计过程中,负责记录数据交易过程的各个环节。
 
  第五项技术,安全隔离,确保数据不会被拿走。多租户隔离,保证数据需求方在使用数据进行计算或者建模的时候完全独立,不会受到其他租户影响。
 
  通过这种模式我们确保数据可以被使用,但不会被拿走。实现不敢看、不能看、不想看、看不了。现在数据大部分都被大公司所垄断,那么UCloud希望做的就是期望通过一个安全的机制能够让各公司手上的数据跑起来,能够让任何一个创业公司在不太够的情况下能获得其他公司的数据,或者让有些公司认为手上没有价值的数据真正流通起来。商品流通才有价值,数据流通也才有价值。


相关资讯

【2018中国互联网技术大会】对话研讨:大数据...

2018-12-13

【2018中国互联网技术大会】对话研讨:互联网+...

2018-12-11

高性能AMD云主机如何选?AWS、谷歌云、UCloud...

2020-05-22

UCloud携手北外在线 云端赋能教育信息化

2019-01-07