首页 > 大数据 > 正文

基于日志文件的数据挖掘机理分析与研究

2016-02-19 13:27:39  来源:36大数据

摘要:介绍了数据挖掘的定义,分析了日志数据面临的挑战及对其进行挖掘的原因。讨论了日志数据挖掘的需求,归纳了对日志数据挖掘的具体内容,总结了日志数据挖掘的具体应用。
关键词: 大数据

 
  虽然“拒绝服务检测”总是遭到嘲笑,从某种意义上来说,这种检测是通过注意到恰好没有任何服务来进行的,但是系统管理员可能并没有监控所有系统的正常运行,这就是系统崩溃的主要原因。
 
  以上列举了一些希望通过挖掘日志发现的有趣事实。对计算机而言,“有趣”的准则很难定义,但用日志数据挖掘可做到,其典型应用如下。
 
  (1)探查:网络探查和扫描总是在发生,用户越来越能预料到它们。用户应该了解探查,但是不可能花费资源去寻找它们。与此同时,这类探查数量上的变化更可能成为有趣的信息。
 
  (2)如果安全架构很稳固,就能够预期到失败的攻击;这些攻击的发生有各种原因。与探查类似,用户应该了解它们,但是不会花费资源去寻找它们。
 
  (3)正常消息:日志充满了表明某些例行过程完成和其他完全正常的事件的消息,这些记录是用于审计和其他目的的,它们明显不出人意料,信息安全管理者也不会去挖掘它们。但是,变化仍然很重要。常规的消息停止出现,或者开始表现出较高或者较低的频率,这可能令人感兴趣。
 
  (4)被阻止的攻击:这与失败的攻击类似,如果用户的安全措施阻止了攻击,即使这种攻击是没有想到的有趣攻击,也不需要立刻采取行动。
 
  (5)系统状态更新:类似于正常事件,这些事件无法诉诸行动。同时,系统状态更新在某些不寻常的时候发生可能很令人感兴趣。
 
  5.日志数据挖掘的具体应用

        日志数据挖掘主要有如下9个方面的应用[4]。
 
  (1)罕见的事物:由于某种原因,这并不常发生。如果发现以前没有发生过的事件,它很可能是恶意的。因此,罕见事件是挖掘的主要候选。罕见的攻击、罕见的系统消息以及几乎从不登录的用户,都是值得检测的。
 
  (2)不同的事物:虽然不提倡“日志恐惧症”,但是应该注意和以往不同的事物。这是数据挖掘的基本方法起作用的地方。
 
  (3)不相称的事物:虽然与上一类紧密相关,但表现得“不相称”的日志记录必须加以挖掘,因为它们可能包含有趣的信息。
 
  (4)古怪的事物:如果某些事物显得古怪,可能是出现麻烦的象征。这与上面两个类别有微妙的差别。要了解古怪的事情,如DNS系统连接到packetstorm.com,自动下载攻击工具,不需要任何基线和预先的数据收集工作。
 
  (5)向不寻常的方法发展的事物:分析人员和管理员可能发现,有些日志记录完全改变了正常的通信方向。正如上例中所看到的,到服务器的连接完全合法,即使使用的是无害的端口,如TCP端口80,服务器向外连接也应该引起重视。
 
  (6)最常见的事物:虽然属于总结和报告的范畴,严格说不属于数据挖掘,但是“x大事件”对于寻找有趣的日志记录及其模式仍然有用。毕竟,如果排名有所上升,例如传输带宽最主要用途,它仍然是有趣的。
 
  (7)最不常见的事物:类似于罕见事务,简单地说,“发生次数最少的事情”,这是“x大事件”的“邪恶姐妹”,甚至比前者更有用。最不吸引人的系统往往成为未来攻击和破坏的跳板。
 
  (8)无趣事物的奇怪组合:这粗略地遵循下面的公式:“善”+“善”=“邪恶”。是的,一组完全正常的日志记录也可能组成危险的事件。最简单的实例是端口扫描,它看上去只是一组往往数量很大但无害的连接请求。
 
  (9)其他无趣事物的统计:某些无趣事物的计数可能令人感兴趣。而且,这种计数的变化往往更加重要。ICMP“ping”数据包的突然增多可能意味着拒绝服务,尤其是这种ICMP洪泛在没有预警的情况下突然发生时。
 
  以下列举一个典型应用来说明。假设发现了一个黑客事故,该事故涉及漏洞扫描器的授权使用。大部分公司都部署网络IDS,但是许多公司并不理解采购这些设备的价值。这种情况发生的原因包括日志中的大量假阳性,它们削弱了人们对这些系统的信任。基于特征的系统为了实现NIDS的价值,可以使用日志挖掘方法,旨在从常规的噪声和假警告中标记出真正的攻击。注意,在这种情况下可能并不知道攻击是否成功,只要了解攻击者的存在和重点,并将攻击与错误触发IDS的无害事件区分开来即可。
 
  当网络基础设施组件[5]或者被误用的检测系统记录合法连接时,它们通常会在日志中生成少数特殊的事件类型。例如,通过防火墙的连接生成一个连接消息。即使扫描防火墙也可能为每个连接会话生成一个事件,以及一个用于整个扫描的事件类型。类似地,“假阳性”通常不与同一批主机之间的其他可疑活动相关,例如侦察性扫描或者其他攻击。相反,假警告更可能会发生或者以大量互不相关的同类日志记录类型的形式出现。这里,所指的“会话”是如下要素的独特组合:源、目标、协议、源端口和目标端口。
 
  因此,如果按照会话组织数据库中收集的事件,并记录每个会话中特殊事件的数量,往往与攻击类型的数据相同,就有办法区分真正的攻击和合法流量及假警报。这种日志挖掘方法使用一种通用模式,以获得潜在破坏性攻击的证据及结果,但不能找出攻击成功的标志,只是对其真假进行鉴定。
 
  6.结论

       数据挖掘对日志分析非常实用,日志数据挖掘[6]是审核日志数据的一种新颖方法,在实际工作中非常有效。许多日志类型可从某种挖掘中获得更有用的结果。虽然数据挖掘是一个复杂的领域,但针对日志进行的数据挖掘并不十分困难,可在许多环境中实现。尤其在需要高技能分析人员和很长时间的常见分析无效时,日志数据挖掘能够提供更多帮助。其对企事业单位加强其网站的信息安全[7]会具有很大的帮助。

第四十一届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:pingxiaoli

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。