对CIO来说,灾备中心是信息化建设的重要组成部分,是信息化时代防范灾难、降低损失的重要手段。而灾备中心的选址失误将导致灾备中心本身面临灾难,最终导致灾难备份措施的失效。

中文名

灾备中心

功能

信息化建设

性质

灾难备份

作用

防范灾难、降低损失

中心介绍

四川大地震的突然发生,从各个层面都对中国是一场考验,考验中国人的意志,同时也对中国基础设施的各个方面提出了严峻的考验,我们过去真的认真考虑地震灾害的影响了吗?中国正在进入信息化时代,企业大量的业务数据在信息系统中被采集、传输、存储、处理、应用,一旦系统崩溃,企业将面临巨大的损失。在以往普遍认知中,总认为灾难离我们很远,当今年接踵而来的灾难,雪灾、地震、藏独突然来临,很多企业突然意识到灾难也许就近在咫尺。以金融机构为例:截至5月23日,处于震区的农村信用合作社受灾网点已达2769个,其中房屋完全倒塌131个,无法正常营业的网点778个;位于重灾区的绵阳市商业银行,50多个网点中有10个以上短期内无法恢复运作。在这个信息化无处不在的时代,面临灾难,我们需要重新审视我国的灾难备份建设,真的是有备无患了吗? 911之后,灾难备份被提升到前所未有的高度,国内研究机构、咨询机构、IT服务企业不断呼吁灾难备份建设。国家信息化办公室也在2005年发布《重要信息系统灾难恢复指南》,将灾备建设推到新的高度。虽然整体灾难备份市场仍处在启动阶段,但到目前为止,已经有一些政府部门、大型企业陆续进行灾难备份建设。从现状看,以往灾备中心建设往往重视硬件基础设施和服务体系的完备,而往往忽略了一个最基础也是最重要的问题:灾备中心选址。这就意味着:灾备中心是为了在灾难事件发生时保障业务连续性,减少损失,但灾备中心选址的失误有可能造成灾备中心自身面临着新的灾难。

最近有一个典型案例有非常强的代表性:3月22日,中国太保集团股东大会通过决议,将投资约10亿元人民币在成都高新区建设IT容灾、研发及后援中心,总面积约10万平方米。中国太保集团关于该项目的议案中认为选址成都的原因之一是,当地地质条件比较稳定,远离地震带,且地处战略腹地,在成都建灾备中心面临的自然灾难等可能性较低等。然而,过后不到两个月时间,中国太保集团的项目准备年内动工之际,四川却发生罕见的8级大地震。地震震中汶川距离成都仅100公里左右,虽然没有造成直接损失,但间接的损失似乎难以避免(例如工期延迟导致的附加成本)。从这个案例可以看出,灾备中心选址还需要慎之又慎。

从目前已建灾备中心选址情况看,主要集中在北京、上海,以及广东的深圳、南海、佛山、东莞等地。典型的如:中国工商银行、中国建设银行、中国农业银行、中国银行这四大银行都是把全国数据中心分别建设在北京和上海两地;交通银行、光大银行等股份制银行的全国数据中心和灾备中心也都是建在上海和北京;央行已在无锡建立了灾难应急备份中心,还计划在上海建设全国支付系统数据的备份中心;招商银行的生产中心在深圳,灾难备份中心建在南京;2006年,国开行灾难备份中心已决定选址深圳;国内首个国家级电信灾难备份服务中心在成都建成。按照国家布局,电信将在北京、上海、广州等地建立5个国家级异地灾备中心,为多个行业提供租赁式信息灾备服务;国家税务总局数据中心2005年底正式落户广东南海,该数据中心与国家税务总局数据中心(北京)共同作为全国税务系统骨干网络核心节点。

根据调研情况看,过去单位和企业在灾备中心选址时,更多的考虑企业自身一些便利条件,往往忽略了灾备中心是一项成本较大、人才密集、技术集中、要求高度可用性的系统工程。从选址的角度,灾备中心的可用性会受到以下7个方面要素的影响。

1.社会经济人文环境的优越性(包括:经济发展水平,人文发展水平)

2.当地的自然地理条件(包括:地震、台风、洪水等自然灾害记录,政治和军事地域安全性)

3.高科技人才资源条件(包括:高校数量,IT人员数量,其他科研教育机构数量)

4.配套设施条件(包括:交通、水电气供应,消防等其他市政配套)

5.成本因素(包括:人力成本、水电气资源成本、土地成本、各种个人消费成本)

6.周边环境(包括:生粉尘、油烟、有害气体源,具有腐蚀性、易燃、易爆物品的工厂、仓库、堆场,强振源和强噪声源,避开强电磁场干扰)

7.政策环境(包括:土地政策、人才政策、税收政策)

选址

灾备中心选址关联要素重要性分布

灾备中心选址的7大要素按重要性排序为自然地理条件、配套设施、周边环境、成本因素、政策环境、高科技人才资源环境、社会经济人文环境。

按照上述7大要素再去评估现有灾备中心选址城市和区域,我们会发现以下问题:选址北京、上海会直接导致成本显著提高,选择成都可能会没有认真评估近成都地区的地震断裂带的影响,一些小型城市,人力资源可能成为瓶颈。除这些比较明显的问题,比对这些要素,我们会发现现有灾备中心选址中还存在大量的不足和潜在问题。如:自然地理条件较差,灾备中心将会面临较高的地震等自然灾害风险;配套设施条件的不足,将导致水电等关联成本的提升;周边环境的恶化有可能导致高科技设备的可用性降低,以及危及运维人员的安全;选择成本较高的区域,将导致本来就投资大、效益小的灾备中心投入产出矛盾更为突出;对政策环境的忽略,将有可能面临政策风险;一些中小型城市高科技人才资源的欠缺将导致灾备中心运维IT人才资源短缺,运维人员素质降低,尤其在灾难发生时风险加大;而社会经济环境条件较差会导致灾备中心原材料及配件供应不足。从目前国内大多数灾备中心的选址条件看,上述问题都或多或少存在,这对灾备中心而言,蕴藏着巨大的投资风险。

从技术上看,衡量容灾系统有两个主要指标:RPO(Recovery Point Object)和RTO(Recovery Time Object),其中RPO代表了当灾难发生时允许丢失的数据量;而RTO则代表了系统恢复的时间。最好的情况是RPO=0,RTO=0,但显然这种情况是个理想状态。

现在灾备做得最好的银行系统是将指标设在RPO=0,RTO<5分钟。每个单位每个业务的灾备目标不可能都要求达到银行的标准,因在规划业务系统的灾备和技术选择时,需要细致分析各单位复杂的IT系统的危险程度,有效区分关键业务和非核心业务系统,并平衡业务系统的实际需求和总体成本的关系。

除对灾备规划重视外,作为容灾的关键设备,存储设备本身的性能也很重要。电信运营商对于核心存储设备的稳定性要求远高于主机和网络设备;存储产品本身必须有容错架构、故障自检和自愈能力,而且厂商应该具有充分的技术服务能力,支撑电信运营商对于安全和稳定性的苛刻要求,仅仅提供设备已经不能满足运营商对于存储系统稳定运行的需要了。国内的运营商开始出现多点容灾、双向互容灾等等复杂的需求;而过去大多仅仅建设同城同步容灾,现在的市场需求多样,而且要求的功能越来越复杂。