首页 > IT业界 > 正文

山竹”台风过后,发觉选择数据中心没有想象中那么简单了

2018-09-21 17:09:03  来源:互联网

摘要:超强台风“山竹”刚刚过去4天,香港地区在第一个工作日已陆续复产复业复市。有谁敢相信,“山竹”袭来的当天,香港天文台的10号风球信号整整挂足了10个小时。
关键词: 山竹 数据中心
  作者:新天域互联
  超强台风“山竹”刚刚过去4天,香港地区在第一个工作日已陆续复产复业复市。有谁敢相信,“山竹”袭来的当天,香港天文台的10号风球信号整整挂足了10个小时。
 
  根据香港中华电力当天新闻稿称,其供电系统在“山竹”的袭击下,40万伏特及13万2千伏特架空天线受到严重影响,导致约40000个客户供电中断。在这里新天域互联小编给大家做个小科普,中华电力(中电)负责香港九龙、新界区的电力供应,而港灯电力(港灯)负责香港港岛地区的电力供给,双方分工分明。举个例子来说,位于香港新界区葵兴ITECH TOWER 2的新天域互联数据中心,就只能使用到中电的电路系统。
\
  图:取自中电官网
 
  中电一直维持世界级的供电系统,可靠度达 99.999% 以上。如此稳定的可靠度有赖中电输配电网络采用环形配置,为客户提供双重电源。中电更透过设备完善的系统控制中心,以先进技术实时监控各输配电网络的情况,其中包括13,900座变电站以及长达14,500公里的高压电缆。中电完备的系统控制中心及专业的外勤队伍,提供7*24*365紧急服务,确保供电服务日夜无间。
\
  图:取自中电官网
 
  断电危机
 
  众所周知,数据中心等电信类设施对稳定电力也有着很高的依赖性,而停电正正是它们的命穴所在。
 
  据Uptime Institute对全球1000家数据中心运营商和IT从业者进行的数据中心行业调查显示,在2014年,25%至46%的受访者都曾遭受断电对业务造成影响。
 
  简单列举几个案例如:
 
  l2014年7月5日,位于弗罗里达的维基百科数据中心发生断电事故,导致全球范围宕机。
 
  l2015年9月20日,亚马逊AWS一个数据中心遭遇停电事故,旗下Netflix,Tinder,Airbnb等应用程序的在线服务受到了影响。
 
  l2017年5月27日,英国航空公司从Heathrow和Gatwick起飞的所有航班,原因是机房故障导致其全球运营严重中断。
 
  l
 
  数据中心应该怎么预防?如何解决呢?
 
  数据中心断电预防措施
 
  数据中心的主要功能,是为它所包含的关键任务应用程序提供稳定的正常运行。根据2016年Ponemon Institute的调查,UPS系统故障仍然是导致计划外数据中心宕机的首要原因。
 
  硬件方面
 
  2017年Uptime Institute拉斯维加斯的研讨会上指出,在已公开的停电事故当中,其中62%是由于IT设备服务供应商的问题。而如今“上云”成为大家迫不及待的选择,不仅需要信赖大品牌的能力,还要注重上云的方式和机房的硬件设备,如:机房五大系统的保障、双活机房,服务器、存储等配置情况及品牌;
 
  严格按照数据中心建造标准来建设;
 
  选用可靠的电力系统装置和冷却系统装置等;
 
  异地容灾、异地快照、异地还愿、镜像灾备的准备;
 
  对数据中心设备进行实时监控;
 
  根据专业机构建议对硬件进行合理升级。
 
  软件方面
 
  软件硬件双剑合璧才能使服务器发挥最大稳定效用。
 
  1、可通过DCIM管理软件对供电系统进行智能化管理;
 
  2、定时进行软件备份,按照既定时间进行数据备份;
 
  3、确保网络安全,建立运维文档和流程控制;
 
  人力方面
 
  Uptime Institute研讨会上同样指出,至少38%的断电情况是人为导致的。那么究竟什么是人为因素呢?以下几点属于管理过失问题:
 
  设计妥协。数据中心一定要按照高等级标准进行数据中心建设,尤其针对供配电系统、制冷系统等关键基础设施产品的应用提出严格要求,始终保证不妥协;
 
  培训预算削减。数据中心的持续稳定运行离不开优质运维人员的全力支援,除了新员工完整的培训流程一定要做好外,老员工的定期培训也是十分有必要,毕竟IT知识日新月异;
 
  裁员。裁员就意味着数据中心没有足够的人员支撑运行,无论是日常维护还是紧急情况处理,这些都需要足够又稳定的人员;
 
  预防性维护。管理者必须对数据中心里的每班当值人员进行充分的紧急情况培训,多模拟安全测试,准备好灾难应急方案;
 
  缺乏专业机房人才。邀请专业人员或公司加入到团队当中,加强高可用的数据中心管理体系;
 
  选择成本最低的供应商。无论是自建机房还是租用托管服务器,企业都必须根据自己实际情况,选择最好的硬件,最好的环境,最好的设备。
 
  定期演练
 
  断电解决措施
 
  有时候即便预防措施做齐了,还是会发生断电,这个时候,新天域互联给大家一点建议:
 
  首先在场人员必须先确认停电的线路,停电时刻等信息;
 
  按照灾难应急方案进行,第一时间通知各个相关部门;
 
  对数据中心里的设备进行检查,如服务器、UPS系统、核心系统等等;
 
  对数据中心进行有效的散热处理;
 
  工单记录;
 
  部件检查完毕时,区分优先恢复的步骤实施,确保用电功率情况正常;
 
  启动发电机,检测发电输出电流通断,待发电机运行稳定,按顺序启动制冷系统、主UPS的市电输入、客服系统、备用UPS的市电输入;
 
  发电机启动后,值班同事需将降温系统关闭,逐一检查所以设备是否正常;
 
  派专人现场值守,及时与油品供应商沟通。
 
  史上最强“山竹”台风来袭,正是考验一个数据中心应变能力,基础设施是否过关的最佳时机。在山竹抵港的十个小时里,新天域互联并未因停电而导致宕机事故的发生,整个数据中心井然有序,服务器持续高效运行,这源于新天域互联所采用的电气系统,冷却系统和备用柴油发电机均为2N冗余,能有效应对停电情况发生;更源于工作人员365天如一日的为用户提供最为高品质的服务。

第二十七届CIO班招生
北达软第一期EXIN隐私与数据保护基础认证培训
法国布雷斯特商学院MBA班招生
法国布雷斯特商学院硕士班招生
责编:chenjian