【北大CIO班十周年】唐会军:金融行业大数据应用

2015-12-04 10:53:48  来源:CIO时代网

摘要:2015年11月28-29日,备受关注的“北大CIO班十周年年会暨首届中国行业互联网大会”在北京大学与宽沟会议中心隆重举行。数美时代CEO、北大CIO同学会互联网分会秘书长唐会军,就主题“金融行业大数据应用”发表演讲。
关键词: 大数据 金融 北大CIO班
  2015年11月28-29日,备受关注的“北大CIO班十周年年会暨首届中国行业互联网大会”在北京大学与宽沟会议中心隆重举行。29日,互联网+金融分论坛在宽沟会议中心也如期召开,来自金融行业的资深专家、企业代表和CIO优秀学员们出席了此次论坛,人才济济,共聚一堂。就金融行业在互联网大背景和新时代信息技术的影响下,进行了最新的技术交锋和很有价值的业内经验交流。数美时代CEO、北大CIO同学会互联网分会秘书长唐会军,就主题“金融行业大数据应用”发表演讲,以下为演讲实录:
\
  大家上午好,我先简单自我介绍一下,我叫唐会军,之前一直在互联网公司里面,我毕业以后前五年一直在百度做技术架构相关的事情。然后中间五年在360负责大数据和云相关的一些事情,然后今年开始是响应总理的号召也出来自己创业了。今天很高兴有机会跟大家一起分享一下我对金融行业的一点粗浅的看法。可能很多熟悉我的同事会问你不是一直在互联网行业嘛,怎么现在转金融了,其实现在不流行跨界嘛,所以,我今天出来给自己定了一个目标说要成为互联圈里面最懂金融行业的人,同时在金融行业里面最懂互联网的,所以我今天就班门弄斧,在各位专家面前分享一下我对金融行业大数据的看法。
 
  先看一个麦肯锡的一个调研报告。这个报告什么意思呢,就是说它是分不同的行业,在大数据潜在价值的评估,左边是有很多很多的行业,右边是大数据的不同纬度的一些评估。然后它的颜色,它打分是通过颜色来衡量的,颜色越深,代表这个行业在大数据这个纬度里面的价值是最靠前最大。然后我们看一下这个金融保险这个领域,我用红把它圈出来这一块。你看它的应用纬度里面有四个都是最深的。然后还有一个是第二的。这个纬度来看的话,其实麦肯锡在他们眼里,他们认为金融和保险行业其实是在这么多的行业里面应该是大数据的潜在价值是最大的。
 
  麦肯锡为什么会认为金融保险行业的大数据潜在价值这么大呢?可能大家一般的印象里面或者大家接触你们同学可能在前面几年,一般的大型互联网公司可能大数据的价值影响比较大。像之前的百度,像BAT,包括像360,他们的大数据的平台的规模一般都在好几万,甚至十几万,几十万的规模,而且它的业务,它的商业变现,它的收入等等这些方面都极大的依赖大数据。为什么麦肯锡会觉得金融行业的大数据价值也会这么大呢?
 
  在某些纬度来看,我觉得金融行业其实它就是个天生的互联网企业或者行业。为什么这么讲呢,可能大家想想。你觉得这个公司是不是互联网公司,或者说反过来你觉得一个互联网公司具备什么特点它才叫互联网公司呢?像现在滴滴打车,大家觉得它可能是个互联网公司是吧,它有什么特点呢,包括以前的阿里,很早以前,大家说阿里应该不是一个纯粹的互联网公司,那么它包括京东很重的是仓储和物流,但是其实现在大家基本上无可置疑的认为它就是互联网公司,反过来想,具备什么样特点的公司才是互联网公司呢?我个人理解互联网公司具备两大特点。
 
  第一,就是它的整个业务的开展必须依托于互联网络才能展开。就像滴滴打车一样,但是为什么滴滴打车不是叫车的公司嘛,但是之前大家通过电话叫车,换了其他方式叫车也好,它跟网络没有任何关系,但是现在通过手机APP,通过网络叫车,大家就认为它是一个典型的互联网公司。所以我认为典型的互联网公司有这个地域特点就是任何一个业务必须依赖于互联网才能展得开。
 
  第二个特点就是说这个公司它就要海量的用户。这个可能是我们大家对互联网公司的一个很传统特征的理解。
 
  但是这两个特征放在金融行业里面满不满足呢?就像银行一样,大家知道对吧,你在银行办的每一笔业务,查询,取款,转帐,存钱,对吧,无论通过ATM机还是通过柜台,甚至现在通过网银和手机银行,有哪一项操作是能够脱离了互联网能开展的呢?没有,所以这是第一点。第二点,从海量应用数据角度来讲,现在基本上像张总这个工行巨无霸,就不说,好多亿的帐号或者用户,像一些股份制银行也会好几千万的帐号或者用户。所以,它的用户数方面其实也是不输于一般的互联网公司的,从这两个纬度来讲,我个人认为金融行业其实它天生就是互联网行业或者企业。
 
  正是因为金融行业具备了这两个特点,以及海量用户,第二,它的每个业务必须依托于互联网才能开展。这个带来一个很便利的结果,这个结果是什么呢,就是这个企业它具备了沉淀海量数据的可能性。因为你这么多用户在用你的产品,用户信息化产品用你的,所以你就可以搜集用户的大量信息,行为信息,帐号信息等等等等。
 
  所以呢,金融行业它跟互联网行业具备相同的特征,所以它也沉淀了海量数据。互联网公司为什么会沉淀这么多的数据呢?它也是具备这两个特点。现在下面我们来看一下,金融行业和互联网行业它的数据有什么特点呢?先看一下类型方面,大家对金融行业了解的话,目前金融行业存在的大量数据,还是以结构化的交易数据为主。你的帐号有多少钱,你缺多少钱,存了多少钱等等。大量数据是结构化来承载传统的数据库里面,这是金融行业的运行方面的特点。但是,在座有很多互联网公司的,其实互联网公司真正最多的数据是什么,是你用户行为或者日志类的数据为主。这也是为什么在互联网公司里面,结构化的解决方案反而受重视程度不大的原因,因为大量的数据海量数据是非结构化的,以(27:03)数据为主的数据。
 
  再看一下计算,银行业或者金融行业大量的计算,我个人理解是以实时的逻辑处理为主。就是以实时的交易以复杂的逻辑做复杂的判断为主。这是在互联网公司里面其实也有这样的计算的类型,但是它不是主流。互联网公司里面大量数据在做什么呢?做批量的疑项挖掘,大量的模型,大量的算法,批量的计算,这也是为什么互联网公司用了大量的服务器。
 
  我原来在360的时候,我们有好几万台服务器,我们的服务器有时候部门想统计一下各个部门这个服务器是不是浪费,去排资源利用率的排行榜,基本上无可争议,我们部门的服务器一定是排最前面的,为什么,因为有大量的离线挖掘,所以我们一天24小时平均CPU占用率能到80%到90%,基本上其他应用很难做到这个状况。也就是这也从侧面反映了互联网公司的数据的计算类型以批量离线挖掘为主。
 
  真实性方面呢,因为银行的大量数据,都是跟身份证相关的,所以它的特点具备很强的真实性,就很少有伪造的数据,基本上有伪造的数据都是作为反欺诈,风控一个重要的打击对象,把它标出来。
 
  在互联网里面大量是很多网上的数据,甚至是很多个人普通帐号,帐号里面是有真实信息的,你愿意怎么填怎么填,明明是个男生非填性别为女,这样的情况在互联网里面也屡见不鲜,所以在真实性方面,互联网的数据的真实性要大大弱弱于金融行业的。
 
  还有一致性要求,其实这也是大家讨论很多次的,很重要的一点就是一致性或者事务性相关的。其实就是在互联网公司里面,对一致性的要求是相对比较弱的,有些数据有点不对也没关系,但是在银行里面和金融行业里面,一致性是很高的,因为涉及到钱,不能钱搞错了,这是大问题。最后一个纬度,在数据量的角度来看,一般比较大的金融行业可能数据量以百TB规模为主,但是在大型互联网公司里面基本上就到百PB这么一个级别。
 
  所以,在数量方面这两个行业差别还是不小的。进入这个纬度大家也看到这两个行业的数据差别这么大,会不会在这两个行业将来使用大数据场景方面会南辕北辙,会完全不一样呢?
 
  我个人最近的理解我觉得倒不尽然。因为什么?因为金融行业越来越互联网化了。为什么叫金融行业越来越互联网化呢?先看第一个,可能大家都有体会,大家多长时间没去柜台了,对吧,像我我就非常不喜欢去柜台,我现在用的最多的无非就是手机银行,网银,作为查询,转帐,然后只有取钱的时候我没办法我才取。但是我现在取钱的次数越来越少,移动支付钱,现在甚至包括我经常出去跑步的时候,每天早上我出去跑步我都不喜欢带钱。因为钱在衣服里面因为有汗,就很不好。但是我每次跑完步都想买点水果,懒得再下楼了。但是以前呢因为没带钱就买不到水果,但是我现在每次不带钱也可以买水果了。因为我们家小区的水果店都可以用支付宝和微信支付了。
 
  所以,从业务的角度讲,互联网的趋势是越来越明显。大家是越来越依赖于典型的互联网的模式,然后去实现金融行业的服务而不是传统的卡,柜台,ATM机,这些业务层面。技术层面呢,其实大家都知道,现在因为云计算大数据,然后开放式架构等等在金融行业,在互联网行业已经在用的非常非常广了,在金融行业现在也开始在采用这种开放式的架构,从LE扩展到开放式架构,大数据的平台,在金融行业用的也越来越多。