陈天晴:
我们国家的综合信息网络,都是很重要的系统,要求信息系统的可靠运营,是业务持续的保障。要做到信息系统的安全、可靠运营,有很多方面,有技术上的,管理方面的。我认为高可用的数据中心基础设施是最重要的物质基础,没有这个物质基础,其它的都很难做。我从两个方面介绍一下情况:第一,国际行业标准的数据中心等级定义。第二,中金公司北京数据中心的情况。
数据中心基础设施,简称数据中心,实际上指的是将来信息系统运作的生产中心或者作为备份中心的场地以及相关的设施,包括场地设施的相关管理。我不讲具体的IT系统,只讲基础设施。
人们都希望信息系统是长期、稳定运行的,甚至想达到5个9,一点不断也很难。但是光靠计算机网络和软件平台是不够的,还需要与之匹配的基础设施,包括配电、空调和其它的环境支持,这样才有可能做到5个9,5个9还不敢保证,所以还得有备份中心。
几十年来,数据中心的基础设施设计经历了四个阶段。第一级数据中心大概出现在上个世纪60年代。第二级数据出现在上个世纪70年代。第三级是80年代。第四级,首次出现于1994年,也是首次出现双电源计算机。只有双电源计算机,才能保证计算机的基本要求。双电源计算机,需要至少两路完全独立的供电系统,通过不同的电源通道连接到计算机,有效地将冗余供电的最末端从UPS下移到计算机,这点非常重要。UI调查表明,98%的基础设施电源故障都是出在UPS到计算机这一端上。只有到双电源计算机出现以后,保证双轨路的供电系统,才有可能使数据中心基础设施达到更高的可用性。
第一级,基础级,计划内的和非计划性的活动都可能引起整个运营的中断。一般来说电力配送和制冷,都是单体故障。为了进行维护,一般大的维护就要停机,小的维护也得手动关闭很多东西。整个可利用率只能到99%点。
第二级,有部分冗余部件的数据中心。停机的可能性比第一级小一点,一般来说有架空地板、UPS和发电机,但是UPS和发电机的设计容量不是很大,一般是N+1,有点冗余,而且是单回路,这样就有单点中断的可能。对于关键电路和其他基础设施进行维护,需要程序式的关闭设备,也就是有计划的关闭设备,就会中断整个运营。可用性可能到99.741%。
第三级,可并行维护级。可以在不引起计算机硬件运行中断的情况下,进行所有的计划性的现场活动,包括保护性的和程序式的维护、维修和软件替换等等,对于水冷的大型系统,一般要求两个独立通路,不能关掉一个,关了也没用。有充足的处理能力和配电通路,允许在一条通路承担负载工作的同时,另外一条通路进行维护和测试。非计划的活动,例如操作错误或者设施部件自然故障,还是会引起数据中心中断的可能性。通常可以升级到第四季数据中心,可用性是99.9%。
第四级,容错级数据中心,能够保证任何的计划性活动不会引起关键负载的中断。同时能人手至少一次的非常糟糕的情况,就是非计划性的故障和非关键性负载事件的冲击的能力。一般来说,需要两条同时激活的配送线路,而且电源系统都是双系统供电,S+S。而且从电力的角度讲,每个系统还是N+1的冗余度。即使在这种情况下,由于消防和供电安全规范要求,可能还会发生停止运行的时间。要求所有的计算机都有双电源接入,单电源是不行的。可用性可以达到99.995%。必须要经过严格的措施,证实出现非计划性故障的时候是不是中断,一般都是严格的分区运行。同时也可以通过计算管理方法,进一步提高可用性。这些措施包括高灵敏的烟感、大范围的员工培训、所有职员认证、严格分区以及限制关键区域人数等等,可以提高到99.999%,跟系统相匹配。
这个表列了非常重要的要求,比如监督类型,第一级、第二级一般是混用的,而且现在大部分数据中心都是在一个楼里,有一层或者两层机房,其它还有很多办公的,甚至不是一个单位的。第三级到第四级就是一个独立的建筑物。所有的负载不能超过90%,要求有点余量。对故障率来说,第三级有一点,到第四级一点都不能有。分区也是一样,第四级必须分类分区。比如供电,第一级和第二级是一路供电,第三级是两路,往往是一主一备,到第四级必须两个都是活的。运营商,第三级必须是多个电信商,不能是一个电信商。场地的可用性,第三级以上一般是高压接入,而不是一般的220或者240。建第四级机房,整个周期一般也得15个月-20个月,要求很多。
下面介绍一下中金公司北京数据中心到底怎么建的。
中金公司是新型的信息技术系统外包服务商,以自行管理、功能齐备、高可用的数据中心为基础,以专业化的技术服务团队和系统服务产品为核心,向高度依赖IT系统运作其关键业务的重点行业客户,提供信息系统场地支持服务、生产中心运营托管服务、灾难备份和业务恢复服务。我们将在全国构建一个数据中心的网络,北京、上海和华南建三个一级中心。在烟台建一个远程的数据备份中心。在西部还要建一个远程数据备份中心,西部这个地方还没有确定,构成一个网络,能够为需要服务的客户进行生产中心托管,同城数据备份,异地数据备份等等服务。
北京数据中心就在北京经济技术开发区,就是亦庄。从地理环境来说,交通很便利,市政规划最好,配套设施支持也非常好,而且也有稳定的地质结构,自然灾害可能性很低,没有任何危险源。
整个数据中心为独立园区,由中金公司独立管理。数据中心按功能划分为互相物理隔离的中央机房、监管楼、业务楼、后勤服务楼和动力机房。整个占地面积是一百亩。总规划面积是九万平方米。一期建筑是5.6万平方米。
所谓独立建筑、功能分区,分成几个建筑物。中央机房一共有三层,整个建筑面积17000平方米,为IT设备及基础设施运行区。
监管楼有四层,建筑面积11300平方米,是数据中心运维支持工作区域,其中有IT监控中心、基础设施监控中心、安全防范监控中心、消防监控中心、技术支持服务中心。所有的管理都是另外一个楼,不是跟机房混在一块的。中央机房尽量减少人员,严格来说平时基本没人。
业务楼有五层,建筑面积13000平方米,这是我们的一个特点,将来要为服务的客户提供系统监控、操作、维护和业务处理以及灾备演练和业务恢复区域,不能在机房内恢复,一定要有非常好的场所。业务楼实际上也是机房性的建筑物,除了消防是喷水的,其它都是按第二级标准设计的,是业务楼。
后勤服务楼四层,6000平方米,提供餐饮、住宿和物业管理等等。
动力机房是独立的,不是跟机房放在一块的。大概有1700平方米,可以安装八台大容量柴油发电机。还有其它的附属建筑,总共是56000平方米。
灾害防御能力,中央机房远离外部设施,它是包围在中间的,而且外墙是防爆墙,可以非常有效地防止人为破坏。园区周围都有安全缓冲区,防止非法闯入。抗震烈度为9度,比一般标准高出1度。全部建筑都是一级耐火等级和一级防水等级设计的。标高比平面要高出90厘米,可以防涝。中央机房采用两级新风过滤系统,针对北京的多风沙的天气。后勤楼也是用其它建筑隔离,防止鼠、虫、蚂蚁等等进入。
中央机房一共三层,层高5.4米,一层地板的负荷为1吨。二、三层不一样,有的是7000公斤,有的是1.2吨。整个设备运行区一共三层,每一层划分不同的单元,一层是五个单元,二、三层六个单元。每个单元的地板面积是432平方米,每个单元都具备独立的供电系统、空调系统和消防系统。还有一个特点是整个机房没有上下水设施的,因为我们不主张这里面有人,可以提高可用性。
这是第二层的平面图,UPS是两路,网络也是有两个框架机构,所有的地方都是双冗余的,每个结构都是双的。
供电系统是关键,保障数据中心高可用性的关键设施。我们通过来自两个不同开闭站的10千伏供电线路以及N+1冗余配置的后备柴油发电机组成的整个中心三重供电保障系统。最后一直到每个计算机都是两个电源接入的,任何一路挂了都不会影响计算机的运行。柴油发电机是八台,每台大概是2000、1000。油库可以支持24小时运行,同时可以实行不停机的加油,可以跟当地油部门签定协议,保证停电的状况下能够长期地运行,而且运行的负荷不光保证整个中心的一部分,而是保证整个中心整个电力支持。
空调系统,每个运行区有6个精密空调对吹,每个区是独立的。采取N+1冗余方式,20%以上的制冷余量,上下回风,双路供电,从地板下的冷风过来,机柜都是背对背,一直到上面。每平方米的耗电量1600瓦。
消防系统也是提高可用性的关键,采用的是分层布置的主动式极早期火灾探测系统和气体灭火系统,这也是提高可用性的关键。数据中心除了中央机房以外,都是水喷淋的,保证人的安全。
通信系统,具有多家电信运营商,四个供应商都可以单独接入。整个水平方向和垂直方向都是冗余的,一直到每个单元。每台系统设备可以有两个独立的网络连接。
安防系统也是关键,把整个园区分成五个等级,有一般区域、受控区域、重要区域、关键区域、客户专属区域。一般区域是周边的保护,受控区域是设立门禁系统,一般在园区里面,全部保护。重要区域是建筑物里,对每个人都有门禁,有许可能到哪儿。关键区域指的是中央机房和动力机房。客户专属区域是指在中央机房,根据客户的需要设立专用区域,可以在安全的基础上加一层保护,要遵守,不能搞特殊,在这个范围内是专属的。
我们还有强大的信息系统监控网络平台,分成两级,一个是系统级的监控,主要对我们服务的客户进行监控,看看运行状况怎么样。应用级监控是每个客户自己做的,能够监控到所有在机房内的设备。每个客户可以在业务楼,也可以在客户本身,通过远程,可以任选两个,也可以两个都要,可以加自己的设备。我们根据客户的授权看每个客户的设备,他自己的设备自己看。客户跟我们互相有一个关系。
对于设施和环境监控,我们也是集中管理的,所有的监控都是通过移动来做的,设施监控中心能够对所有的设施进行统一的监控和管理。根据消防部门的需要,总是有一个独立的监控,即使这样,在监控中心还得有,是双层来做。
北京数据中心是中金公司首座建设的大型专业化数据中心,也是目前国内规模最大、安全可用性等级最高,就是T4级的专业化数据中心。是我国高可用、专业服务型数据中心建设成功的范例。真正开工是去年8月份,比较快,今年8、9月份就可以投入使用。数据中心投产以后,可为国家重要信息系统以及其它系统担任外包服务提供很坚实的基础设施平台。外包服务包括生产中心场地支援服务,也包括灾难备份的场地支援服务。每个客户到我们那儿去,就像用自己的地方一样来管理。
谢谢大家!

【责任编辑 廖艺】