【第二届中国行业互联网大会暨CIO班十一周年年会】王彦博:商业银行大数据挖掘理论与应用

2016-08-30 16:01:14  来源:CIO时代网

摘要:中国民生银行公司业务战略规划部数字化管理中心总经理、全行科技信息委员会专家王彦博在活动上发表了题为《商业银行大数据挖掘理论与应用》的主题演讲。
关键词: 互联网 商业银行
  2016年8月13日,由北大信息化与信息管理研究中心、中国新一代IT产业推进联盟主办,CIO时代网、阿拉善盟旅游局、阿拉善盟文旅投公司承办,北达软、网加时代网、转型家、《金融电子化》协办的“第二届中国行业互联网大会暨CIO班十一周年年会&首届阿拉善峰会”在苍天圣地阿拉善成功举办。与此同时,互联网+金融分论坛在阿拉善隆重举行。来自金融领域的专家、知名企业代表和CIO学员们参加了此次论坛,在新一代信息技术的冲击下,就金融行业的最新技术进展、转型方向等内容进行了深刻的探讨与交锋。
 
  中国民生银行公司业务战略规划部数字化管理中心总经理、全行科技信息委员会专家王彦博在活动上发表了题为《商业银行大数据挖掘理论与应用》的主题演讲。以下为演讲实录:
 
\
 
  各位嘉宾、各位朋友,各位老师,各位学长,大家下午好,非常容幸能够有机会跟大家分享一下“商业银行大数据挖掘与运用”这样一个题目。我们来看一下整个的国民经济形势,国内的经济进入了一个新常态,再加上运营市场化的进程不断的入侵,以及互联金融整个的发展,实际上对整个的商业银行的金融环境带来了很大的冲击和竞争。那么在下一步的发展之中如果希望能够胜出,我们需要构建自己的核心竞争力,可是核心竞争力是什么?实际上是一种价值能力,除此之外它是不能替代和不复制的,并且是差异化的。很多的银行会说,我们是快速的提供创新产品和服务,但很容易被别人复制,也有人说,我们雇最好的员工,找到黏性最强的客户,但实际上客户和员工的流动性是非常普遍的,这个时候我们就需要找到真正意义上的核心竞争力在这个市场上。
 
  基于大数据的银行核心竞争力
 
  实际上对于商业银行来说什么是差异化,取决于前端和IT构架,IT构架出来了以后,会考虑哪些外部数据对你有战略意义,你可能会通过一些购买、怕去的方法来构建整个数据的战略,这时候数据的质量可能是不一样的,数据的结构、数据的多样性可能不一样,数据所构建的模型也不一样。这个模型会用在什么地方呢?也不尽相同。这样的话就可以通过大数据能力来给每个商业银行带来自己的不同的核心竞争力。传统的商业银行领域,肯定是业务和技术。你优先于业务,就是说小的树,首先是注重你树的树叶、叶茂、枝繁叶茂。以及在大数据的能力的培养过程中,还有是业务的协调不太注重,这样的话就会限制整个商业银行或者是金融行业的发展。要注重根与叶协调的发展,这样的话对于大数据新兴技术的发展还有运用,以及重视大数据的技术资源的培养,以及怎么样去构建技术和业务之间形成一个机制,就可以使商业银行可持续的发展形成核心竞争力。对于商业银行和金融这个大数据,对我们来讲,互联网+,大数据+对于银行来讲作用是非常重要的。
 
  数据挖掘是大数据领域的核心所在
 
  针对互联网和大数据的方法看,数据挖掘和大数据之间是什么样的定位,我们首先非常简单的锁定一个数据源,就是一个网站还有相关的论坛,在不知道数据挖掘和大数据的这个事实背景下,我们很简单的锁定了这样的网站,比如说我通过爬虫技术,把这个网站里面所有的文本爬下来这个文字。之后我们以每一句话作为一个分段,而不是每一段文字,因为他们每一个的数字量不一样,之后做成分子集成的中文的分子,就是说每一个字是一个词,作为一个词这样最大化的可以利用这些,通过智能分词,找到了有这样四十个多的,第一个是反复、重复很多的词,并且对切断的长度构成了一个词的概念,我们可以看到大数据、TB、分类、聚类分析这样的词。之后做什么样的事情呢?我们把里面出现的两个词连成了一条线,连的这条线因为他们中间相同的文本和句子,看到了大数据,我们就用肉眼可以观测的,大数据跟他的分析有关,大数据是跟类语言,大数据跟TB、分析预测相关的,分析和海量数据相关。有时候我们要关注对以往的数据,因为分析之后,还要对未来的数据进行预测,也有相关的一些算法,会用到分类等传统的技术,我们需要Hadoop、MapReduce等能力来支持加速器,所以经过了整个的很简单的一个新的探索方法,可以得到一个概念,数据挖掘是大数据领域的核心所在。
 
  我今天主要分享三个框架,第一是商业银行大数据金融的一个宽带体系,第二是商业银行大数据挖掘给大家的建议,看到一个发展的路径,第三是民生银行之前做的相关工作给大家做一个分享。
 
  商业银行大数据金融框架体系
 
  先不说是金融行业,或者是商业银行,我们就说各行各业,实际上都应该有一个标准的或者说是通用的商业应用的大数据的基本框架。不管现在是用互联网的业务,还是用传统的线下模式,还有O2O线上线下相结合模式。我们跟客户去沟通,我们是什么样的渠道。最下面的这层代表我们很多的与客户应用的场景,在第二次的时候,我们知道通过什么样的渠道跟客户接触了,不管是哪个行业,首先一定会有对客户的市场要进行细分,对客户进行了一个分群,之后我们要了解客户的需求,还要能够把握和预测客户的需求,我们可以做一些产品,这个可能需要进行预测和销售,之后客户可能会对这个企业有投诉,我们要及时的掌握,还有一些必要的风险预测。中间的这层实际上是通过上面的互联网+体现大数据+中间的这层能力化去实现的。再往下几个大数据基础上的,一个业务的建立,第二个是为了把大数据的技术充分的展现出来,我们需要信息的可视化,第三个是多类型数据处理能力,但实际上我们还需要考虑的就是它的结构问题,因为我们可能需要涉及对非结构性(文本、图像、音频、视频等各种类型)数据进行处理和分析,而不是仅仅专注于结构性(库表类)数据;四是分布式数据计算能力,比如我们经常提到的Hadoop框架,主要包含分布式存储和并行计算两部分内容,它可以被看作是开展大数据应用的“加速器”;五是最为关键的数据挖掘分析能力,因为即便其他能力均已具备,若缺少有效的数据挖掘模型和算法,就好比“空有体表(业务、可视化)和骨架(多类型数据、分布式并行计算)而缺失灵魂(数据挖掘)”,所以我们说:数据挖掘是大数据应用的核心驱动力。
 
  商业银行大数据金融四层级框架体系
 
  对于商业银行和大数据金融来看,我们来给出这样的思路,这样的一个框架,这个框架从上往下是层分级,从下往上是层层支持。可以先从上往下来看,既然要做大数据挖掘,首先要有数据,有装数据的这么一个基础,在数据的基础层面需要基础设施,需要基础的软硬件和设备,需要网络通讯,网络数据的采集、数据存储、数据的管控机制,与数据的文化和数据的加速相关的一些基础的配备,我们叫数据基础层面。往上一层是“数据模型层”,反映了知识探索所通用的方法论(现象观测、逻辑证明、假设检验、仿真模拟、数据挖掘),以及在此基础上“数据科学”的主要技术展现(固定报表、即席查询、灵活图表、数理统计、分析预测、人工智能、虚拟现实);再往上一层是“业务模型层”,在商业银行应用中,主要会运用经济、金融、市场、管理四大理论体系,用以支撑银行运营中的战略管理、客户管理、产品管理、渠道管理、营销管理、风险管理、绩效管理、人力资源管理、财务成本管理等方面;最顶端“业务应用层”是按照市场进行划分的公司与投资银行、零售银行与信用卡业务、金融市场与同业业务三大业务板块,以及与客户直接进行接触的分支行营业网点、金融事业部一线团队、电子银行与直销银行。
 
  当这四个层级被完全打通之后,即可实现真正意义上的商业银行大数据金融。在四层级框架体系中,数据统计分析与挖掘被看作为“数据模型层”中的重要组成部分,但同时也可用来泛化理解为整个“数据模型层”,起到了对整体框架体系上下贯穿的重要作用。
 
  大家说我是做模型的,你是做哪一个模型呢?在整个逻辑状态下有三种模型最底下的,最底下的包括ERP,是做的数据模型、实体关系的模型,没有它的模型很难构建关系型数据库。第二个模型是做知识的模型,我们通过建立了第二层,第三层是你在经济理论、金融理论和市场理论有很多的模型,比如说4C模型、4P模型、5E模型、平分积分卡,这几个模型是在运用的层面是在商业运用层,我要直接运用,中间没有这一层模型作为传导,就是说很不平滑,所以说中间可能需要这种支持业务的默写,那么它支持什么呢?支持我们在战略管理和我们在产品管理,渠道管理,这样的话形成了一个很好的基础。
 
  所有的这几个管理,不管你在商业银行的哪个业务条线,比如说公司、零售市场的条线都可能面临到了这些问题,中间的各个不同的业务板块再往上才是真正的跟客户直接接触的渠道,比如说分支行的,有金融事业部的运营团队,有电子银行有直销银行,直接接洽了这些这样的渠道,这样我们整体的构建了一个大数据金融这样的一个构建,只有当这四个框架构建了以后,商业银行的作用运用发展才能够真正的意义上的作用。从商业银行的能力性来看,很多的银行说是非硕士以上的研究生不招,硕士研究生进去以后可能先从业务层面,之后有一些经验,然后觉得还可以提升。从前面这两层引进人才,服务人才比较贵,有一些什么呢?我们战略银行的科技工作,做的是底层的工作,有的人做的工作觉得说我需要了解模型,他是不是模型呢?现在的问题是把这些人的从头到脚他的腰身很软。这两层为什么可以打破不了?因为一个是代表业务,一个是代表技术科技,业务和科技之间会提出需求,他会说我给你解释需求,我给你做开发,中间的这块儿,往往现在是说这个时代已经起来了,我们需要最好的是直接随时随地进行沟通然后快速的发展。我们是希望把这种薄弱的业务,让大家做一个思想分析。
 
  大家不管是从商业银行的角度来讲,可能会有一些方向,能够做一些提升,或者是少走弯路。从便捷来讲,可以看到商业银行需要什么,需要什么我们提供什么,这样会更加有效。这个是刚才说的四个层级的空间。
 
  商业银行大数据挖掘发展路径
 
  商业银行的大数据发展,实际上是什么样的路子?我们在这里给大家做一个分享,首先再一次的大数据挖掘实际上这个词有点牵强,我们真正做数据挖掘的人角度来看是不存在数据挖掘是出来大数据和数据挖掘,这个时代要求了必须要变成了大数据挖掘了,我们就说是大数据挖掘吧,实际上是大数据时代加上数据挖掘,我认为大家再去分析一下发展的路径,大家可能觉得这样理解起来会稍微好一些。数据挖掘的核心思想是什么?面向具体业务、具体应用。
 
  就是从商业银行的角度来讲,我们认为不存在独立于业务的技术的发展,因为实际上任何一个技术的发展,实际上都是需要一些在业务的价值上,没有这个需求的话,你有同样的时间精力的话,投入有业务的方向上去,不存在完全依托与业务和运用的情况。尤其是在金融行业。首先第一点一定要切入主题,之后我们不需要提出假设不需要提出命题,直接按照一定的知识格式,分析挖掘数据存在的价值,但是人们用肉眼无法识别的,机器、各类的隐藏的规则、趋势,挖掘出来了以后,对它加以有效的运用有价值的,我们是总结过去和未来的这个事,这个是数据挖掘的这么一个概念。
 
  之后从90年代诞生,除了分类,关键规则之外,还有很多的知识模型出现,还有很多的数据类型的发展,数据类型上面做一个固定,再往后是大量的运用,非常广泛的运用,传统的市场营销领域、金融行业,各个行业都发展的非常迅猛。到了2013年叫做互联网金融的元年,同时也是大数据的元年,Hadoop正式的被引用和提出,做了大量的这方面的工作。再往后之后在2014年的时候,Spark开始流行。2014年2015年大量的开源,然后也开始了很多的,再往后是应用技术的一个计算和一个评价,深入的去做一个深度学习,所以2013年开始到现在的话,我们看到了云数据,大力发展了“4V”。我们看到了数据挖掘走路了,大数据时代了,因此我们现在做的这个就是大数据。是这样的一个逻辑。我们建议其他商业银行,他们还没有做,在座的很多的学长,可以做这样的项目,按照您的路径由简入难,去做相关的工作,比如说先做后面的数据挖掘来做,然后再做自然语言的文本的工作,然后是网络挖掘互联网的概念,他们可能会有一些音频、视频的图象来挖掘,还有是基于LBS和大量的数据优势数据会涉及到96年往下的,会涉及到算法交易,再之后底层的框架。往上有好的框架,基于云的框架。我们找到了这些知识,需要把它用到了一个机器人,这样的话他能够很快的实现双方共赢。
 
  我们做的产品要做客户管理、产品管理,渠道管理。首先是商业银行会是以客户为中心的,他一定是先做客户,有了客户管理,他是关心什么产品和什么服务。考虑清了有客户有产品,要考虑给他用什么渠道,他会往前投钱。第三是营销。但是营销只是商业银行带来价值的一个方面,因为金融商业和绩效管理,绩效和机构上的人力的投资,按照这个路径来做。
 
  民生银行大数据挖掘实践
 
  最后再给大家快速的分享一下民生银行在整个过程中怎么做的,我们有四个阶段,第一个阶段我们在2008年搭建了一个传统的金融市场数字市场的数字模型。首先是梳理原数据,然后是内部数据。到了第二个阶段,用传统的数据挖掘的方法运用在零售的风险预测的突破上,第三个阶段,我们2013年到2015年,随着数据的发展,我们也做了一些有意义的有效果的一些,这个是进入的大数据挖掘的时代。最新的是从去年年末到了现在,探索积极人、云识别、人脸识别在智能银行的一个小范围应用,大概是这样的一个发展过程。
 
  整个大数据的工作岗位,一个是数据科学家,一个是数据工程师,一个是数据分析师还有是业务分析师。我觉得在一期之后按照数据挖掘标准化的想法,因为大数据挖掘既是一门科学也是一门技术,也是一个工程,我们要用标准化的结构来标出来,大家各自分工,就能够做好,就能实现真正的价值。我的分析就到这,谢谢大家。

第三十五届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:pingxiaoli

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。