接二连三的银行客户数据丢失案件,正在让国外众多银行高层陷入万分恼火、忧虑不堪的情绪之中……
在瑞士银行集团日本分行丢失了一张存有高度敏感客户信息的磁盘之后,花旗银行也难逃此劫,390万客户账户资料6月6日在快递途中的神秘失踪,让世界最大银行集团之一的它顿时陷入信任危机。
国外银行们的尴尬处境给中国银行敲响了警钟。因为由账户信息、客户资料、信用记录、交易明细等组成的各类业务数据,是银行业赖以生存的重要信息资产。
于是,在大集中已成为银行普遍做法的当下,如何做好数据中心的数据管理和保护,以实现业务的连续性,便成为让银行业高层们分外关注的重点问题。
5月26日,中国首届灾难恢复行业高层论坛在广东南海举办,深圳发展银行外包建设灾难备份中心(文中简称“灾备中心”)的案例,则成为会上推广学习的典型,因为其超过7000平方米的专业灾备中心已连续稳定运行了40个月。
请看本期管理案例——《深圳发展银行的业务连续性管理(BCM)案例》。
数据的集中带来风险集中
业务连续性管理(Business Continuity Management,简称BCM),是一项综合管理流程,它使企业认识到潜在的危机和相关影响,制订响应、业务和连续性的恢复计划,其总体目标是为了提高企业的风险防范能力,以有效地响应非计划的业务破坏并降低不良影响。为灾难备份行业提供专业性服务的非营利机构DRIAsia执行总监GohMohHeng这样介绍道。而让深圳发展银行与BCM这一在国内至今仍是新名词的管理方法相识起来的原因,是它当初面对着如今所有国内银行共同的问题——即在将原来分散在全国中心城市的小型数据处理中心逐步集中到省一级的处理中心以至全国性的大型数据处理中心,集中处理业务数据的同时,客观上也把风险无限集中和放大起来。
为加强银行账务监管、数据共享、新业务的开发和降低计算中心的运营成本,2000年,深发展开始考虑改变原有的多分区多中心、数据分散式存储和处理的传统方式,准备将全国近200个网点的数据都放到深圳一家集中的数据中心,实现全国范围内由一个中心存储数据和处理业务的格局,也就是我们常说的“数据大集中”。
“现代金融业倡导365天7×24小时服务,因此实施数据集中就必须充分考虑灾难备份工作的开展。”深发展的项目负责人对记者说。
于是,经过几番严密的论证调研之后,深发展最终于2001年7月与GDS万国数据服务公司签订了为期五年的灾备外包服务协议,让后者为其制定了业务连续性计划,并开始提供关键信息系统的第三方灾难服务。
在BCM中,当发生灾难时,情况是这样的 ……
“当某天早晨员工上班时,却突然发现办公楼已被浓烟包围,消防队正在封场灭火,无法进入办公室开展日常业务的银行工作人员该怎么办?”中国内地第一位获得DRI International “Certified Business Continuity Professional”(国际灾难恢复组织的业务连续性专家资质认证)认证的业务连续运作专家、全程负责深发展项目的GDS公司首席灾难备份顾问、咨询与方案总监汪琪向记者介绍了深发展银行三支小组联动的业务连续性管理计划机制。按照GDS的规定,第一个发现灾情的员工将会立即通知银行24小时值班的应急小组。而后者则要立刻与消防、供电、警察等各方面联络,了解现场情况,比如火烧到什么程度,几小时能解封,人员什么时候才能进入等等,以便准确地进行情况评判。
如果得知半小时左右火便可以扑灭,便不用宣告灾难及进行切换,整个流程至此结束。就像国家信息化专家咨询委员会委员曲成义所讲的那样,灾难恢复应该是整个应急体系中的最后一道防线。
“事实上,无论备份等级有多高,任何灾备中心与真正的业务系统间都还是会存在或多或少的时点差距的,切换恢复后的业务系统不一定是全部;且系统切换本身也是要付出时间、人力、物力等高成本代价的。而我们所该做的,是在灾难发生后尽量将损失降到最低。”汪琪这样解释道。
但若发现火势凶猛,可能要十多个小时甚至一天的时间才能被扑灭,则损失评估的结果应是立即宣告灾难,并向整个行动的总指挥——上级行领导——报告“要切换”。
而在应急小组启动现场情况评判这一工作流程时,银行的另一支小分队——灾难恢复小组也已经开始行动起来了。他们将立即通知GDS进入预警状态;并在半小时之内赶到灾备中心现场。而在等待灾难恢复小组的成员赶到灾备中心现场的半小时时间中,GDS的工作人员将会全面检查系统、网络、数据情况,做好切换准备。随后到达灾备中心现场的灾难恢复小组成员将兵分两路,一部分迅速进入灾难恢复中心,准备指挥接下来将要进行的灾难恢复动作;而另一部分则到灾难备份的系统前查看数据及系统状态,间接了解到生产中心的数据及系统状况。
随后,灾难恢复小组中的应用业务人员将对切换后的系统进行排查,确定数据是否已为最新,软件功能是否已经完备,网络是否已经连通,与第三方机构的系统是否也已连上等数项事宜。一旦发现一切均已完备,便立即上报总指挥。行领导随即便可宣布正式对外开始营业。
而在这一系统排查时段中,第三支队伍——银行客服小组也将利用新切换的CALL-CENTER(呼叫中心)号码,指挥下面的分支机构进行相应的数据恢复,并对储户、客户、社会的查询进行回复。“因为对于刚刚发生过灾难的银行来说,克服客户的恐慌是非常重要的。当年的海南发展银行就是因传言而出现挤兑现象的。但事实上,当灾难发生后,只要你能迅速告知客户他的钱和账户均没有发生任何丢失与变动,那么90%的客户是不会再继续恐慌的。”汪淇这样表示。
不难发现,在真正的灾难发生之后,几乎所有事情都是由银行的工作人员自行完成的,而这也是因为GDS有着“不TOUCH(触碰)用户数据”的原则。而通过一年一度的灾备演练使银行员工脑海中能够对这一业务连续性计划留下深刻而真实的印象,则是业务连续性管理中国际通行的一个重要惯例做法。
据汪琪介绍,对深发展这样的银行来说,设计的案例还必须能够把其所有业务流程都走过一遍,即演练中必须涵盖到储蓄、对公、存款、计息这些所有业务环节中涉及到的每个子程序、程序库、文件类型、文件构造等关键点。
事实上,灾备中心的建设只是为了保持深发展业务连续性而做的一种IT支持手段,它的目的就是为了让GDS为深发展量身制定的业务连续性计划能够在灾难突发时得以顺利实施。而在DRII(国际灾难恢复组织)的定义中,业务连续性计划是一套高级管理和规章流程,它使一个组织在突发事件面前能够迅速做出反应,以确保关键业务功能可以持续,而不造成业务中断或业务流程本质的改变。
北京威视瀚海数据技术有限公司高级技术顾问侯海波认为:“事实上,以灾难备份形式实现的业务连续性管理,关键就是要关注团队(People)、流程(Process)、设施(Product)、计划(Plan)这4P要素。”而深发展无疑是做到了这一点。
业务连续性管理的几个关键点
风险评估最重要。“业务连续性管理的国际专业操作步骤为:项目启动和管理——风险评估和控制——业务影响分析——制定业务连续性战略——紧急响应和运行——计划制定和业务连续性计划的实施——认知和培训项目——业务连续性计划的演练和维护——危机联络——与外部机构的合作。”DRIAsia执行总监GohMohHeng向记者介绍。可以看出,在项目启动后,风险评估和业务影响分析被放到了最重要的位置上,因为只有通过它,才能确定一个企业究竟需要怎样的业务连续性战略与计划。
地理位置有讲究。而对于深发展的风险评估和业务影响风险分析,则是为了确定它究竟需要一个处于什么地理位置的灾难备份中心和怎样程度的数据备份等级。
“在业务连续性管理的专业理论中,企业若想防范大规模灾难,就应该把数据中心和备份中心在地理上尽量疏散拉远。但由于目前技术的限制,当备份中心与数据中心之间的光纤距离超过63公里时,为了不影响生产数据中心的性能,数据就难免会有丢失。也就是说,防范大规模灾难和防范数据丢失,实际上是一对颇为矛盾的需求。而企业就是要通过正确估量自己可能面对的风险和可能造成的业务危害,明确自己的实际需要,在数据不丢失与防范大规模灾难中自我平衡,做出取舍。”汪琪这样表示。
投入不能少也不必多。数据备份等级的选择也同样是这一道理,曲成义就明确指出,在灾难备份系统的建设上,“欠投入是不允许的,过多投入却也是没有必要的。”而究竟该投入多少才合适,还是要先做风险评估和业务影响风险分析。
按照国际通行的风险公式,RISK(风险)=一旦遭受风险可能承受的损失×发生这一风险的概率。而在对深发展可能面临的风险及会造成的业务影响进行分析后,得出的却是“数据中心所在地深圳发生大规模灾难的可能性极小”这一结论。因此,对于深发展来说,最重要的便是提高数据备份等级,而没有必要将灾备中心与数据中心的地理距离十分疏散。因为即使是发生战争这样的大规模灾难,深圳都会因拥有毗邻香港这一优势地理位置,而比北京、上海、乃至广州的风险小得多。
深发展的一个细节。一个有意思的细节是,当时的深发展原本准备将灾备中心建在自己位于深圳龙华的一块地上的,但后来放弃了“自留地”改选观澜。
“即使是同城灾备中心,建设用地的选点也是必须要遵循几个原则的。离市区光纤距离50公里左右、交通方便、距机场30~60分钟车程的位置最为合适。”汪琪说,“因为这样既能比较有效地防范大面积停水、停电、火灾等人为灾难的波及,又能方便外地甚至外国的专家和技术人员在灾难发生后迅速赶到现场。而且,灾备中心一定要自成园区,保安、物业、供电、供水必须能够全部由自己控制;且周边不能有重大工程、军事目标、粉尘、化学污染、重工业、磁场干扰等的存在。”观澜就恰恰符合以上这些需求——30公里的陆地距离换算成光纤距离是40多公里,周边有3条高速公路和一条一级公路、距深圳机场不算太远,且地质条件上,6度的地震烈度与深圳的7度不同,两地间还有小山丘的存在,可有效防止洪水、地震等灾难的波及。
链接
通过灾难备份保证业务连续性的20条准则:
通过灾难备份保证业务连续性的20条准则:花钱不代表解决了一切,硬件性价比逐年提升,但业务连续性的投资不一定更经济;从零开始;剔除所有单点故障;维持高度系统安全性;整合所有服务器;将所有共通性的工作自动化,避免误操作;将一切记录下来,程序、开发文档、操作手册、应用手册等;制定服务水平协定;及早规划;测试/演练;维持分散式环境;将故障隔离;了解系统历史情况/数据;构筑以符合未来的成长;选择成熟的软件;选择可靠性/服务性高的硬件;复制成功的配置,容易支持测试;参考外界资源;一个问题,一个解决方案;K.I.S.S(Keep It Simple as Stupid越简单越好)。