首页 > 基础设施 > 正文

服务器在线模式诊断硬件故障的步骤

2012-08-21 15:12:38  来源:e-works

摘要:本文通过AIX环境下的实例介绍在服务器在线模式下诊断硬件故障的具体方法和步骤。
关键词: 服务器

    服务器技术已经发展几十年,但随着互联网信息技术的发展。云技术和移动平台成为新的技术标准。为了使终端更便捷,客户端会采用手持式移动设备和浏览器,并要求相关的数据和程序须保留在“云”端。随着云技术和移动平台的发展,服务器的数量和规模必将成几何级数的增长。故障和问题也会成倍增长。但和在个人使用的情况不同,网络化的服务器由于同时支持众多的操作者。运行不同的网络应用程序。管理众多的本地和远程设备。其设备的故障诊断就相对复杂。


    UNIX本身是为复杂网络化环境设计的操作系统,而AIX操作系统是最大的系统集成商IBM开发的第二代UNIX,具有性能完善,使用方便,扩充性强,适合企业关键业务等特点,所以本文实例均在AIX环境下实现。


    1、故障概述


    服务器的在线模式故障是指服务器发生了一般性错误。这些错误虽然不至于系统崩溃。但影响系统的正常运行,影响数据的健壮性,并有进一步扩大危害的可能。系统的问题和故障应该及早发现。并及时进行处理和解决,避免进一步的危害,引起严重后果。及早的预判。及早的发现。及早的排查是故障诊断的关键。


    2、系统故障分析和判断


    系统硬件故障分析可以使用diag命令进行分析和判断。


    在系统管理员状态下运行命令#diag进行硬件诊断程序。检测主机内硬件存在的问题。
 

\
 

    1)基本系统


    2)I/O设备


    3)异步设备


    4)图形设备


    5)SCSI设备


    6)存储设备


    7)通信设备


    8)多媒体设备


    #diag -S


    在所有资源上运行诊断。


    3、查看系统的错误日志


    在系统运行时,一些系统错误会记录在errlog中,其中有些错误还会在终端上显示。检查错误日志可用以下命令
 

\
[page]

    4、DUMP


    当系统发生软硬件故障导致宕机时,系统将搜集故障发生时系统的内存和处理器状态等信息,产生DUMP文件,并且在液晶屏上显示888开始的代码。记录第二段开始的故障码,并分析DUMP状态码有助于分析故障原因,找到问题所在。


    5、日常检查服务器状态的项目及其相关命令


    作为辅助。定期运行检查服务器性能的相关工具和命令,有助于掌握服务器状态,预测故障点,相关命令包括:


    Iostat


    查看系统I/O状态。分析CPU对各端口的服务占比,了解硬盘swap空间和内存的数据比例关系。


    Vmstat


    查看系统虚拟内存状态信息。


    Sar


    Sat查看系统活动状态信息。


    Topas


    Topas可以监控系统内存,CPU,I/O端口,swap空间的情况


    no 命令用来修改内核参数。调整系统性能。


    Svmon


    svm on 命令用来查看系统当前的内存的具体使用。


    6、结论


    任何完好的系统它都不可能一点错误或故障都没有,网络服务器系统在运行时总是会或多或少的问题出现,虽然AIX系统具有自动诊断错误和故障的能力,但用户熟悉系统,并定期监视诊断系统的运行情况,方可避免不必要故障的发生。本文相关维护方法在IBM P520服务器,AIX 6.1操作系统下实现通过。


第三十四届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:zhangyexi

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。