【博文推荐】如何做好大型数据中心的运维
【博文推荐】如何做好大型数据中心的运维
2016-01-08 10:19:44 来源:51CTO博客
抢沙发
2016-01-08 10:19:44 来源:51CTO博客
摘要:在云大行其道的今天,随着数据中心建设规模的不断扩大,新技术的层出不穷,数据中心变得越来越复杂。大型数据中心往往是由很多功能不一的单元系统组成,其运维工作需要具备方方面面的知识。
关键词:
数据中心
从数据中心网络方面考虑,则主要有网络硬件设备、ACL、OSPF、LACP、VIP、协议分析、流量、负载均衡、二三四七层情况、网络监控、万兆板卡、核心交换等。网络是数据中心的重要组成部分,是一切工作运行的基本保证,没有网络数据中心就无法运转起来,所以保证网络稳定是数据中心运维工作中的重中之重。这里不仅要关注网络的硬件问题,还要关注SDN软件定义的网络。一般传统IT架构中的网络,根据业务需求部署上线以后,如果业务需求发生变动,重新修改相应网络设备(路由器、交换机、防火墙)上的配置是一件非常繁琐的事情。而在当今互联网/移动互联网瞬息万变的业务环境下,网络的高稳定与高性能还不足以满足业务需求,灵活性和敏捷性反而更为关键。SDN所做的事是将网络设备上的控制权分离出来,由集中的控制器管理,无须依赖底层网络设备(路由器、交换机、防火墙),屏蔽了来自底层网络设备的差异,而控制权是完全开放的,用户可以自定义任何想实现的网络路由和传输规则策略,从而更加灵活和智能。进行SDN改造后,无需对网络中每个节点的路由器反复进行配置,网络中的设备本身就是自动化连通的。只需要在使用时定义好简单的网络规则即可。如果你不喜欢路由器自身内置的协议,还可以通过编程的方式对其进行修改,以实现更好的数据交换性能。比如百度自研交换机,可以直接支持SDN的远程配置与管理特性,从而实现上线全自动配置。未来,自研交换机还会更进一步和服务器自动化上线结合,提升服务器交付和管理效率。网络可以说是包罗万象,涉及太多的设备和协议、软件层技术,所以也需要不断地学习,加深对网络技术的理解,这样才能做好网络运维工作。
从数据中心服务器方面考虑,则主要有文件系统、内核参数调优、各种硬盘驱动、内核版本、Kernel panic等。Linux系统不仅在服务器,在网络操作系统也占据着主流地位,掌握Linux系统的使用才能更好地处理服务器和网络设备的运维工作,Linux是运维工作的一项基本技能。除了熟悉Linux系统的操作,还要对服务器的运行状态和内核运行状态进行监控与管理,减少服务器故障的发生。一般大型的数据中心都包含有成千上万台的服务器,几乎每天都会有服务器出现各种各样的问题,只有对服务器有深入理解才能很好地消除问题。为了防止服务器故障引发业务中断,所以一般在服务器上都要部署虚拟化技术或者集群技术,当一台服务器物理硬件故障时,业务可以平滑切换到其它服务器上,业务不会受到任何影响。这些虚拟化技术增加了运维的难度,也需要对虚拟化技术进行不断深入学习。另外数据中心服务器的定制化也是很有意义的一件事。云计算需要大规模部署,因此需要服务器具有更高的部署密度、节能而且易于管理,但对于每个节点的计算能力要求并不十分苛刻。而厂商生产的普通意义上的服务器由于要适应多种应用,则更多兼顾性能、扩展性,忽略了成本和能耗。而如果是专门为云定制的服务器,会针对云的特点进行优化设计,从而更加符合用户的需要。对于企业来说,它带来的好处显而易见,试想一下,即使每台定制化服务器节省的电力有限(4电源改2电源),但对于大规模部署的数据中心来说,长此以往,成本的节约也是显而易见的。比如Google所拥有的服务器都是自己设计,采用定制化托盘,内建电池做备用电源,相比传统服务器成本和耗电都要低得多,这也为Google节省了大笔的电力开支。
从数据中心存储方面考虑,架构更加多样和复杂化。在云计算、虚拟化、大数据等相关技术进入数据中心后,存储已经发生了巨大的改变,块存储、文件存储、对象存储支撑起多种数据类型的读取;集中式存储已经不再是数据中心的主流存储架构,海量数据的存储访问,需要扩展性、伸缩性极强的分布式存储架构来实现。在大规模系统支撑上,分布式文件系统、分布式对象存储等技术,为存储的各种应用提供了高度可伸缩、可扩展和极大的弹性支撑和强大的数据访问性能,并且因为这些分布式技术对标准化硬件的支持,使得大规模数据中心存储得以低成本的建设和运维。当然分布式存储不是要取代现有的盘阵,而是为了应付高速成长的数据量与带宽而产生的新形态存储系统。另外就是软件定义存储,它代表了一种趋势,即存储架构中软件和硬件的分离,也就是数据层和控制层的分离。对于数据中心用户而言,通过软件来实现对存储资源的管理和调度,实现存储资源的虚拟化 、抽象化、自动化,能够完整的实现数据中心存储系统的部署、管理、监控、调整等多个要求,使得存储系统具备灵活、自由和高可用等特点。企业及互联网数据以每年50%的速率在增长,新增数据中结构化数据总量有限,多数为非结构化、半结构化数据,数据中心存储架构随着业务发展也需要极强的弹性适应能力,低成本、海量扩展、高并发性能是面向大型云数据中心运营存储架构的基本技术属性。如何进行数量庞大且杂乱无章的数据存储与深度应用处理,并迅速提取有价值的信息,形成商业决策将成为各类型企业生存基础,也是今后存储以及围绕存储架构不断衍生的业务发展方向。
最后从数据中心安全方面来考虑,安全就是若干个小项:攻击保护、升级备份、抓BUG/找BUG、脚本工具、数据安全、服务巡检等项目,其中每一项拿出来其实都包含很多的内容。比如说到攻击与保护,这个主要指的是防止外来的异常入侵者对数据中心发起的恶意和无意攻击,恶意攻击就是有人故意的使用各种攻击方法,进入到数据中心内部,将重要的数据窃取或者破坏,达到其不可告人的目的。也有的是无意的攻击,因为整个数据中心是要与外界保持互联互通的,运行是动态的,变化的,不可避免会有一些异常流量攻击数据中心,有时甚至来自于数据中心内部,比如某些服务器中毒,或者硬件故障,构造出了环路,异常流量等网络故障,这些都会影响到数据中心的运行,所以如何做好数据中心的攻击与保护是一个很大的题目,这并不是在数据中心里部署几台安全设备就能解决的,需要对整个数据中心进行全面的统一规划,并有针对性地部署一些安全防护措施,而且随着各种黑客技术的提升,安全防护措施也要不断提升,这是一个不断学习与完善的过程,只要数据中心还在运行,这个完善就不会停止。为了方便运维,也要做好一些执行脚本,以便在出现突发事件时,能够快速处理问题。比如一个数据中心的业务出现异常,为了快速恢复业务,需要将路由进行调整,将流量全部引到其它的数据中心,这就需要在核心路由器上进行调整,这时有个现成的脚本就可以自动执行,达到快速切换的目的。数据中心还应该准备很多其它工作的脚本,以便紧急的时候快速使用。
通过以上的分析您一定很惊讶,原来数据中心运维包含这么多内容,大大小小数十项,而且每一项包含的内容说起来都不那么简单,也涉及很多的技术知识。通常数据中心是一个公司、企业或政府部门的信息处理中心,几乎所有的业务都要经由数据中心才能完成,所以数据中心对于一个企业或政府部门至关重要。而一个数据中心能否稳定和高效运行,运维是真正的关键。只有将这些方方面面的运维工作做好做细做到位,数据中心才能长期稳定。
第四十一届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:pingxiaoli
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。