首页 > 人工智能 > 正文

IT运维工具来侦破经验搞不定的故障

2013-09-09 11:18:22  来源:IT168(北京)

摘要:在IT运维管理中,我们决不能低估人的价值,但完全依赖个人经验,就很难让IT运维服务水平再上一个台阶。
关键词: IT 运维

    在IT运维管理中,我们决不能低估人的价值,但完全依赖个人经验,就很难让IT运维服务水平再上一个台阶。反之,利用IT运维管理软件,将有价值的维修方法、故障排除的方案和经验知识,统一纳入知识库,日积月累后,便建成了IT运维部门“百科全书”。这种良性的循环,既能发挥核心人员的故障排查经验,又能帮助监控或值班工程师快速找到解决办法,提高服务的及时率,从而构建一个超越现在的运维团队。


    每一个管理员都希望拥有一个不出故障的网络,但这肯定是一种奢望,IT技术以及网络设备的发展即使已经超越了你的想象,但在IT运维管理中还是无法甩掉故障管理的包袱。当然,很多“成功”的运维大师都会以解决各种奇异问题为荣,但如果支撑业务系统的对象数量超越了你的记忆容量,那些凭借经验修复网络的高手就很可能败下阵来。


    故障管理的本质是什么?


    在我们崇尚的ITIL参考读物中,“故障管理”的目标就是将 IT 基础设施错误引起的事故和问题对业务的负面影响减到最小,并防止与这些错误相关的事故再度发生。为了实现这个目标,“故障管理”力求第一时间找到引发事故的根源,并着手改善或纠正该情况。


    IT运维管理部门的真正价值并不是出现故障之后的处理,而是在故障发生前能够准确判断,排除隐患,并避免故障的发生。所以,一个最能帮助企业有效对抗故障难题的方法,是建立主动性的发现机制和流程,可利用北塔BTIM等运维管理软件,首先实施全网范围的基础设施监控,并对每次故障进行“记录、跟踪、监督和分析”。之后,便可限时完成受理、派工、处理、反馈和回访,将服务过程按流程自动化、规范化和标准化运作起来。


    蹊跷的2分钟


    有一些很蹊跷的网络故障时常会发生在我们身边,在对各种可能因素进行逐一排除后,仍然不能找到故障原因。而当手中拿着数十个故障诊断工具,原始命令熟记于心的时候,在这些特殊网络故障面前,如果只给你2分钟怎么办?


    某公司网络与上级公司网络,每隔两个小时就会断开两分钟,之后又会自动恢复正常。同时,由于这套网络系统涉及到广域网络,跨越的节点非常多,且数十套业务流量也跑在里面,理论上讲,可能的故障点非常多,很长一段时间,用户都束手无策。进而,公司请来了“高手”,但留给运维大师捕捉故障的时间段很短,2小时等待,再加上2分钟的破案时限,面对这个十分奇怪的现象,即使这位高手拥有十多年的运维经验,最后也只能卑躬臣服。


    使用IT运维工具的物理拓扑图发现某台路由器异常,再通过BTIM抓获嫌犯,察看该设备的历史记录,发现该路由器的2M端口每隔两个小时就会自动DOWN掉,然后再重新启动,重启的时间刚好就是两分钟左右。在定位了故障设备后,对其进行针对性的分析,发现是由光端机和该路由器之间的时钟不同步引起的,由此成功地解决了该问题。


    从这个既复杂、又简单的网络故障中我们可以看到,随着企业对网络的依赖程度越来越高,运维管理团队确实需要一些高端人才的加入,但如果在日常的IT运维管理中,过多的依靠IT运维工程师的工作经验,最终会导致网络故障处理效率不高,并造成IT运维服务质量停滞不前的局面。


第三十五届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:董光帅

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。