首页 > CIO > 正文

【干货分享】日志易陈军:IT运维分析与海量日志处理

2016-06-02 16:01:00  来源:CIO时代网

摘要:2016年5月29日下午,“第二期金融CIO论坛”在北京大学中关新园如期举行,日志易创办人兼首席执行官陈军的分享主题为《IT运维分析与海量日志处理》。
关键词: 日志易 IT运维 CIO
  2016年5月29日下午,“第二期金融CIO论坛”在北京大学中关新园如期举行,本次研讨主题为:金融大数据。近20位来自银行、证券、保险等金融行业的CIO们参加了本次论坛的研讨和交流。本活动由北京大学信息化与信息管理研究中心主办,中国新一代IT产业联盟协办。日志易创办人兼首席执行官陈军的分享主题为《IT运维分析与海量日志处理》,以下为演讲实录:

\
日志易创办人兼首席执行官 陈军 

  谢谢大家,下午来到这里,给大家分享一下“IT运维分析与海量日志搜索”。提纲,一是讲一下IT运维分析,也是新出现的一个名词叫做“IT Operation Analytics”,就是ITOA。二是日志的应用场景;还有过去及现在的做法;日志搜索引擎;日志易应用场景。
 
  日志易是两年多前创办的一家公司,对标的是美国的一家公司SPLUNK。我想在座的金融领域的大拿可能都听说过。SPLUNK它在前两年的时候市值曾经高达100亿美元,现在跌了一些也有60多亿美元,它就是大数据的实时搜索分析引擎。日志易其实就是中国的SPLUNK。
 
  简单介绍一下我自己,我是2014年创办日志易,在创办日志易之前在高德地图担任技术副总裁,干了两年,在高德地图之前是腾讯,09-12年。当时腾讯把我从硅谷招回来,当时给的职级是所谓叫T4.3,T4.3在腾讯内部就是专家工程师。09年当时腾讯内部T4级别的就有22个,4.3是里面差不多最高的,再高就是T5,像CTO张志东、熊明华他们就是T5,当时腾讯内部有两个T5。我在回腾讯之前是在硅谷Google总部,从事数据中心还有搜索的研发。在腾讯也是从事数据中心、云计算和搜索的研发。我在Google做了三年,在加入Google之前在思科,也是在硅谷总部从事路由器研发,做了七年时间。我是97年去美国留学,98年在南加州大学拿到计算机硕士学位之后,加入了思科。我在美国发明四项网络和分布式系统的专利,这是在美国专利局网站可以搜索到的。
 
  我这里要讲的是IT运维分析。过去IT运维一直局限在所谓的ITOM,就是“IT Operation Management”,那ITOA是这两年才新产生的,就是把大数据的技术,因为这几年产生了大数据的技术,把大数据的技术应用在IT运维所产生的数据里面。因为IT运维本身每天都会产生大量的数据。过去没有大数据的技术,这些数据是没有用起来,随着大数据技术的普及把大数据技术用在IT运维产生的数据里面来做各种分析,提升IT运维效率。
 
  他能做的有什么呢?可用性监控、应用性能监控、故障根源分析、安全审计和业务分析。Gartner估计到2017年只有15%的全球大企业才会积极使用ITOA,而2014年这个数字只有5%。所以大家可以看到,ITOA也还是比较新的技术。欧美的大企业目前只有10%的使用ITOA技术。
 
  ITOA把大数据技术用在IT运维产生的数据上面,那么数据源就很关键。我们说做大数据,数据源最关键。你能获取什么数据。而ITOA的数据源主要有四类:一类是机器数据。其实就是日志,服务器、网络设备源源不断会产生日志。第二类是通信数据,通过网络抓包做流量分析的数据,市面上也有不少这样的产品。第三是代理数据,这种用的不多,就是在.NET/Java字节码里插入代码来做统计分析用。还有一种就是探针数据,就是在全国各地模拟布点,发起模拟的用户请求,对系统进行检测。
 
  这个是美国一家ITOA的公司对他的客户做的调查分析,这四种数据源,用日志大概有86%的客户,网络抓包是93%,插入代码分析只有47%,模拟探测大概是72%。我不知道大家知不知道目前国内有哪些公司是做这些领域的,包括国外的产品?做日志的就是SPLUNK还有日志易,因为日志无处不在,对应用来说又是旁路的,所以具有通用性;做网络抓包的,美国有家公司叫Netscout,国内的是天旦和华青融天,但是有些应用不会触及网络流量,此种应用网络抓包将无法处理;做插入代码的就是一些APM的公司,像云智慧,OneAPM,美国的是Compuware(产品叫Dynatrace)因为产品具有侵入性,大规模部署受到严重挑战;模拟探测分析主要是听云、博睿等厂家,他们在全国布点来做探测分析的,其分析结果不是用户真实数据(Real User Measurement)。
 
  这四种数据来源的比较,他们各有优劣。日志的好处就是无所不在,服务器网络设备每秒钟都在产生日志,但是它的问题就是说不同应用输出日志内容完整性和可用性不同。我们跟金融客户交流时,他们有些应用系统没打开日志,或者打开日志输出的数据不全。网络抓包流量比较全面,只要产生网络通信都可以抓包分析,但是难点是各种协议要解析,如果是加密的话,你要去解密。另外有些事件未必触发网络流量,如果没有触发网络流量只是服务器本地产生的事件就不会产生网络流量,这种通过日志分析就更有效。代理数据,插入代码这种的好处是可以进行代码级精细监控,但是它的弱点就是它是具有侵入性的,因为每次执行它的代码都会执行插入的代码。插入的代码是否可靠,有没有窃取数据,甚至它崩溃会不会导致进程崩溃。哪怕他解决了安全跟可靠性的问题,但还是带来性能的损耗。因为每次做统计都会执行代码,都有几个百分点的损耗。而且银行很多系统不允许生产服务器植入别人的代码。探针数据是一个模拟用户的请求,可以实现端到端的监控,但它不是真实用户的度量。现在互联网公司做大数据都讲所谓的真实用户的度量。不希望用模拟数据。因为布点监控还是模拟数据,像百度、腾讯他们用户数足够多,他可以在他的应用里监测用户使用情况,获得用户真实数据。
 
  日志是重要的数据资产。日志包括行为日志、网络日志、交易日志、应用和系统日志,包含着大量的宝贵的信息。
 
  如果我们深入来看日志,学术上的说法叫做时间序列机器数据,因为它是机器产生的,又带时间戳,它跟时间密切相关的,所以叫时间序列机器数据。它包含了IT系统信息也包含了用户行为信息、业务信息。所以日志反映的是事实数据。美国有一家非常有名的公司叫LinkedIn,做职场社交的。他在十几年前开始非常积极使用大数据。他的架构师写了一篇文章叫做《深度解析LinkedIn大数据平台》。如果要看它英文的名称跟中文的翻译是很不一样的,英文叫做《The Log: What every software engineer should know about real-time data's unifying abstraction》,每一个软件工程师应该知道的实时数据统一抽象。所以它其实讲的,通篇讲的都是日志,就是LinkedIn里面所有的系统、用户行为、业务都是通过日志来分析的。所以可以看到日志的重要性。
 
  这是一条Apache的日志,日志是非结构化数据。刚才林总也讲到了非结构化数据。大数据其实过去结构化数据只占了不到5%,超过95%的都是非结构化数据。非结构化数据里面相当一部分就是日志。这个日志是非结构化数据的,我们把它结构化抽取字段每一个字段的值,把它结构化了之后就可以做各种统计分析,包括BI软件,基本上所有的BI软件都是对接数据库,用来处理结构化数据的。当你把这样一条日志给BI软件时是没有办法分析的。那日志易就是把非结构化日志转化成结构化数据的工具,可以把它看成ETL工具,转化成结构化就可以做各种各样高级的分析,包括给BI软件来对接。
 

  日志应用场景非常广泛,可以用在运维监控、可用性监控、应用性能监控、安全信息事件管理、合规审计、发现高级持续威胁,用户及业务统计分析。

责编:fanwei
分享到: