首页 > 基础设施 > 正文

小议企业级服务器故障分析及排除

2010-03-10 09:01:02  来源:万方数据

摘要:企业级服务器的故障分析及排除,更多的依赖于维护人员的安全意识、经验及细心。同时服务器的日常维护也是必须的,服务器所在环境对服务器的影响也至关重要,直接影响了服务器硬件
关键词: 服务器 服务器故障

  1 企业级服务器硬件特性及分类
  为了更好的解决企业级服务器的故障及排除,必须深入了解其特性及分类。企业级服务器属于高档服务器,一般都支持4至8个PIII Xeon(至强)或P4 Xeon(至强)处理器,拥有独立的双PCI通道和内存扩展板设计,要求具有高内存带宽,大容量热插拔硬盘和热插拔电源,具有超强的数据处理能力,同时要求具有高度的容错能力,优异的扩展性能和系统性能,极长的系统连续运行时间。
  按照企业级服去其得架构不同其可以分为CISC架构的服务器和砒SC架构的服务器。CISC架构服务器是采用英特尔架构技术的服务器,也就是通常我们所说的“PC服务器”;砒SC架构的服务器是采用非英特尔架构技术的服务器,例如采用Power PC、AJph、PAsRISC、Sparc等RJSC CPU的服务器。RISC架构服务器的性价比要比CISC架构的服务器高得多。而且随着近年来计算机技术的快速发展IA架构服务器与RISC架构的服务器之间的技术差距已越来越小,基于其较高的性价比大多数要求不高的企业更多的选用IA架构服务器。而RISC架构服务器在大型、关键的应用领域中仍然居于非常重要的地位。
  2 企业级服务器常见硬件故障分析及排除
  企业级服务器作为计算机的一个种类,其故障同样可分为硬件故障和软件故障。
  2.1企业级服务器常见硬件故障
  一般情况下服务器硬件故障出现较低,其主要故障多为服务器内部散热受阻等情况下出现的。因此,服务器要经常检查其散热相关部件,察看是否有因灰尘较多影响通风等现象。其次是硬件耗损出现的硬件故障,根据硬件常见故障率企业级服务器硬件故障出现率由低到高依次为电源系统、CPU、内存、外部总线及负载系统。接触不良在硬件故障中较为常见。其主要发生在各种卡类、内存、CPu等与主板的接触不良,或电源线、数据线等的连接部到位。这种故障较容易解决,通过更换相应位置的插槽或对金手指进行擦拭即可以解决。
  2.2企业级服务器硬件故障的排除
  目前企业级服务器绝大多数自带硬件固件(Firmware)测试程序,通过硬件固件(Firmware)测试程序及故障代码的显示(LED组合显示、液晶面板显示、控制台信息)结果,即可以对故障进行初步定位及诊断。根据主机硬件负载相对论,在保证主机硬件平台正常运行下,进行主机负载最小化诊断,清楚地判断出故障点后,通过硬件更换完成服务器硬件维修。
  同时还有一个服务器外设需要注意,那就是网关。一旦网关出现问题,将导致连接不上等情况的出现。此种情况较好处理,只要更换一个网关后,故障即可排除。
  3 企业级服务器常见软件故障分析及排除
  3.1企业级服务器常见软件故障分析
  企业级服务器的软件故障是服务器故障中占约占70%的、较容易出现的故障。导致企业及服务器出现软件故障的因素很多,常见的有服务器BIOS版本太低、服务器的管理软件或服务器的驱动程序有BUG、应用程序有冲突及人为造成(非正常关机、不安操作流程操作)的软件故障等。同时还有因软件升级、病毒导致软件停止运行、意外停电、等原因。软件故障的诊断较为复杂,首先应确定是否为人为操作不当造成的,可以让操作人员重现一次故障出现过程以排除人为操作不当因素。然后根据警示声响、错误代码、检查相关日志及结束可疑程序等进行诊断。最难诊断的是软件冲突造成的故障,软件冲突故障更多的是需要维护及管理人员的经验及观察。
  3.2企业级服务器软件故障排除
  服务器软件故障排除,首先是经常对FIRMWARE及BI0S进行更新。其次是服务器软件的更新,经常更新可以解决因BUG等软件自身原因所造成的软件故障。但是要注意,不正确的升级方法也会导致机器出现硬件检测不到、软件故障等后果。其次是服务器内部可以程序的清除,检查故障出现相关日志,清楚可以程序确保故障排除。再次是因人为因素造成的软件故障,此类故障可以通过正确实用的培训来解决,同时要养成经常保存数据的习惯,防止因意外停电、非正常操作造成关机等情况下数据的丢失。
  4 病毒造成服务器故障分析
  病毒也是造成服务器软件故障的主要因素,虽然不可以说其实主机故障,但是因其同样造成服务器运行问题,所以在此我们将病毒也归为服务器软件故障。重要的是区别病毒与其他软件故障。有些病毒发作现象与硬件或软件的故障现象非常类似,例如引导型病毒就是其中最为典型的一例。病毒一般首先依附某一系统软件或用户程序上,然后进行繁殖和扩散。其发作时严重威胁服务器的正常工作,破坏数据与程序。区别病毒与软件故障可以从病毒的表现及经常更新防、杀毒软件上进行。一般病毒感染后期表现为:屏幕显示异常,出现非正常程序产生的画面或字符串,屏幕显示混乱;程序装入时间增长,文件运行速度下降;用户没有访问的设备出现工作信号;磁盘出现莫名其妙的文件和坏块,卷标发生变化;系统自行引导;丢失数据或程序,文件字节数发生变化;内存空间、磁盘空间减小;异常死机;磁盘访问时间比平时增长;系统引导时间增长。可以通过减小攻击面、应用安全更新、启用基于主机的防火墙及使用漏洞扫描程序进行测试来进行防护。另外,还要注意是否有黑客人侵,埋至程序造成的软件故障。因此在服务器构建初期进行安全防护方案制定。通过物力防御和软件防御双向进行。
  结论
  企业级服务器的故障分析及排除,更多的依赖于维护人员的安全意识、经验及细心。同时服务器的日常维护也是必须的,服务器所在环境对服务器的影响也至关重要,直接影响了服务器硬件的实用寿命。对于其环境要保持适宜的温湿度。要有防尘等措施。日常软件维护时主要可以从操作系统、网络系统、数据库、用户数据等几方面进行维护,及时安装漏洞补丁、优化数据,备份数据。同时在设备卸载及更换时必须做到完全断电、主机接地良好的情况下进行,防止因静电造成的设备损坏。


第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。