本文作者:蔺殿*、刘洋
摘要:随着信息化的发展,企业对信息资源的依赖程度越来越大,没有各种信息系统的支持,企业关键的业务发展和职能几乎无法正常运行。企业内部的信息系统比传统的实物资产更加脆弱,更容易受到损害,更应该加以妥善保护。如何保障企业信息系统的稳定运行,并在本地系统异常后业务可以不间断提供服务?如何真正实现业务连续性与两地三中心的搭建与融合?本文重点以中国大唐集团财务有限公司为例,重点阐述公司在业务连续性与两地三中心应急体系方面的技术实践与管理落地,并对电力企业尤其是财务公司开展两地三中心系统建设进行了深入的探讨与研究。同时也纳入很多信息化先进企业的最佳实践做法,综合分析与探讨电力企业如何更加有效的建立灾备与应急管理体系,把控企业核心命脉,提升企业信息安全管理水平。
一、引言
中国大唐集团财务有限公司(以下简称“大唐财务公司”)是中国大唐集团公司下属的一家非银行金融机构,是集团公司实现资金统一管理与运作、提高资金收益、实现产融结合的专业公司。资金管理系统是公司实现资金管理和为成员单位提供金融服务的重要载体和主要工具,服务于集团内部企业转账、结算、资金归集等方面,加速资金周转,将集团闲置的资金合理利用,实现资金运作效率的最大化,有利促进集团公司、分子公司对下属单位的资金监控。
随着业务的不断发展和经济形势的不断变化,中国大唐集团公司自年成立以来一直高度重视资金管理的信息化工作。经过十余年的信息化持续建设,大唐财务公司在应用系统架构、基础设施建设、IT治理体系等方面基本可以满足业务经营的需要。但是,如何更好地支撑财务公司业务发展,稳定可靠的提供金融系统服务,解决业务连续性方面的风险与威胁,一直是摆在信息科技方面亟待解决的难题。面对信息系统安全新风险、新要求,大唐财务公司需全面考虑,从容灾备份体系的搭建与运营入手,形成对业务系统的全方位保护,结合国内外企业容灾体系建设的最佳实践,按照“规划先行、全面发展”的思路,对企业业务连续性工作进行积极的探索和思考。
二、容灾备份体系理论研究1.两地三中心容灾备份体系简述
两地三中心技术是指通过在同城或近郊建立两个数据中心,并在距离较远的地方建立第三个数据中心。当本地主数据中心由于火灾、建筑物破坏、供电故障、计算机系统人为破坏引起的灾难时,启用本地灾备中心。当由于地震等灾害导致本地主数据中心与同城数据中心均不可用时,启用异地灾备数据中心提供服务。
正常情况下,系统的各种应用运行在本地主中心的计算机系统上,业务及数据同时存放在主中心和同城灾备数据中心,并且将数据实时或延时的同步到异地灾备数据中心。当主中心由于断电、火灾、建筑物破坏等导致主数据中心不可用时,则由同城备中心提供服务。当地震导致主数据中心与同城备数据中心都不可用时,则立即采取一系列相关措施,将网络、数据线路切换至异地备份中心,并且利用备份中心计算机系统重新启动应用系统。技术最关键的问题就是如何做到切换过程时间最短,同时尽可能保持主中心和备中心数据的连续性和完整性。而如何解决主中心、同城数据中心与异地灾备中心数据一致性是容灾备份体系中技术的重点与难点。
2.两地三中心容灾备份体系的实际需求
两地三中心容灾备份体系的建设是企业保持业务连续性的基础,由于金融行业的特殊性,中国人民银行、银保监会、证监会等监管机构均对建设灾备中心提出明确指导意见。中国人民银行下发《中国人民银行关于加强银行数据集中安全工作的指导意见》,年8月银监会也发布《关于印发银行业金融机构信息系统风险管理指引的通知》,要求银行业金融机构应制订信息系统应急预案,并定期演练、评审和修订,规定省域以下数据中心至少实现数据备份异地保存,省域数据中心至少实现异地数据实时备份,全国性数据中心实现异地灾备。年11月,国信办下发《信息安全技术信息系统灾难恢复规范》(GB/T-),这一标准随之成为国家对于各行业灾难备份建设的最高的指导标准。为了充分提高企业信息系统安全,近年来两地三中心系统和相关技术方案已经在国内企业里尤其是金融行业得到广泛的建设和使用。在电力企业集团行业中,两地三中心技术还处于起步阶段,如何针对性和高效的使用两地三中心技术一直是各企业探索的关键。
3.两地三中心容灾备份体技术方案分析
目前,比较成熟的两地三中心容灾备份体系方案一般是在本地建立两套数据中心,一套提供日常的服务支撑。另一套本地数据中心处于实时可用状态,第三套灾备中心一般在异地建设。这样既兼顾的链路稳定性,又能在出现比较大的自然灾害(如地震)时,减小数据丢失。本地/同城两套数据中心链路稳定性更高,因此可以达到双活并且数据实时一致状态,两个中心实时处于可用状态;异地灾备中心基于持续数据保护(CDP)的灾备方案是利用在生产中心独立的持续数据复制器,从生产系统中不断捕捉和同步当前数据并保存其历史轨迹,同时将保存的数据通过专用的远程复制技术再次保留在灾备中心的数据复制器中,从而形成多个完整数据和更多个历史数据的格局。这种技术是在本地两个数据中心都不可用后,应急能力比较强的一种,历史恢复精度也比较高。
从国内众多容灾备份系统建设的案例经验来看,选择合理和有效的技术路线是系统建设和未来成功应用的重要环节。国内的一些系统建设完成后,虽花费巨额成本完成各种目标的灾难防御体系的建设,却出现“有灾无备”,对灾难不免疫的不良后果,其投资损耗和社会影响都难以估算。因此,系统的建设并不是简单的建设一个灾备中心,而是要求灾难防御全方位,不能只防小概率的自然灾害,更要防止概率大的设备故障和逻辑故障。
三、基于两地三中心技术的容灾备份体系应用实践随着财务公司金融业务的不断推进,核心业务系统在公司业务运行中扮演着越来越重要的角色,保障关键数据安全和系统服务不间断已成为所有财务公司信息化建设的首要任务,如何确保资金数据安全稳定,避免业务运转受到影响,或者在风险事件中使业务影响尽可能降到最低,是财务公司防控经营风险和信息安全建设的重中之重。目前,大多数财务公司企业承载这些重要业务系统的硬件设备如小型机、磁盘阵列等全部集中存放在企业自有机房,一旦发生自然灾害或人为破坏,如火灾、雷击、地震等灾害就可能导致设备停机、数据丢失,如不能及时恢复数据和服务,将会造成整个财务公司业务系统瘫痪、业务工作停滞,甚至可能导致不良的社会影响和无法挽回的严重后果。
因此,国内各财务公司逐步在信息安全方面重点在双活及灾备体系的建设上开始了长足的探索。但是,由于财务公司的内部业务特点和规模限制,相比银行机构来说,系统的建设和相关技术的应用在整个金融行业相对滞后,在系统建设技术方面的投资不足,应用效果很难达到建设初衷,行业内成功案例较少。
为确保资金数据安全稳定,避免业务运转受到影响,大唐财务公司决定推进业务连续性系统的建设,为业务运行铺设稳定的支撑体系。而业务连续性体系建设的核心就是双活技术及灾备技术的实施采用和应急管理机制与计划的建立。大唐财务公司先后开展异地灾备系统建设和同城双中心建设,通过这两次系统的实施,建立公司两地三中心灾备系统。
·把控企业的“命脉”——两地三中心建设助力信息安全体系不断完善
两地三中心对于金融类企业是一项必修课,大唐财务公司深刻的认识到解决信息安全的根本方法和最重要的武器就是搭建两地三中心,实现同城的应用高可用和异地数据的保生存。
结合外部监管要求,大唐财务公司分两个阶段实现两地三中心模式的建立。根据保生存与保运营的性质特点,第一阶段,大唐财务公司完成异地灾备中心的建设,实现保生存的基础目标,也是两地三中心的基础。而异地灾备中心的选择,大唐财务公司分析利用行业内的监管机构IDC机房最具有优势,同时也是最有能力抵御风险的。第二阶段,大唐财务公司建立同城双活中心,建设难度相对异地灾备系统建设有所提升,且测试场景由数据到应用,由后台到前台,需要考虑与设计的环节非常多,如何在解决方案的“万花丛中”里设计适合企业自身特点的技术架构与解决方案就显得尤为重要。
图:两地三中心部署架构图
大唐财务公司设计的两地三中心模式投入并不多,力图寻找最具效率的和先进的灾备体系路线,实现高起点、高标准的建设目标,以及实现“信息互通、资源共享、协同配合、反应敏捷、科学施救”的灾备管理模式,适合广大企业开展类似的项目建设,技术上主要包括以下几个特点:
1、同城双活中心方面:
1)本地双中心采用SVC存储虚拟化技术(即:本地机房与同城机房分别部署有存储,通过SVC对存储“镜像”管理,虚拟化后的LUN提供给上层的数据库系统,数据库使用oracleRAC技术,将本地的两台服务器与同城的一台服务器整合成一个大RAC集群);
2)借鉴oracleRAC技术,将RAC进行扩展,在本地与同城两个机房中构建一个大的RAC数据库系统(跨机房的RAC数据库系统),实现3节点的RAC跨站部署;
3)实现生产中心存储故障下的RPO=0、RTO=0,并提供各种历史数据的回退方案,进一步保障了生产安全。
2、异地灾备中心方面:
1)采用基于存储网络的持续数据保护CDP技术,实现从生产节点到灾备节点的数据实时复制和多点快照以及历史轨迹记录,可利用多达个快照及历史轨迹记录实现各种逻辑错误的瞬间恢复。生产中心CDP管理器将数据实时复制到灾备中心CDP管理器,从而将本地保护的范围扩大到各类自然灾害级别的异地保护;
2)实现窄带下的异地实时数据保护,大大节约灾备运营成本;
3)实现异地灾备RPO分钟级的数据保护,保证关键核心数据安全。
容灾备份系统技术的选择和具体的实施要根据企业自身特点而定,明确防御目标,厘清系统建设思路,基于企业的实际情况选择应用级、存储级或数据级灾备方案。大唐财务公司的建设思路重点是避免重复过去其他企业的经验教训,以快速修复、减小风险为建设思路,灾备体系的建设要具备分层次的恢复方式,也就是本地和异地的有效结合、恢复效率第一的原则,最终选择CDP技术来建设异地灾备系统,选择存储虚拟化与多RAC相结合的模式来实现同城双活,满足业务稳定运行的需要。
四、基于应急管理机制的业务连续性管理模式探索两地三中心的最终落地不仅需要成熟的产品和完善系统,更重要的是需要建立一套与之相匹配的应急管理机制与策略。多数企业在系统建设上投资多,但是出现灾难性问题或者重大安全问题时,依然手忙脚乱,束手无策。关键在于缺少建立一套适合本企业业务架构和职能特点的应急管理机制,包括应急管理流程、制度、办法和专业的团队,并进行常态化的演练,才可以通过先进的技术实现对各种安全问题的最优化风险规避。
企业在引入先进的系统架构的基础上,应重点探索应急管理机制建设问题,通过以下几种措施实现管理与技术的良性互动与融合:
1、制定应急管理流程和办法。在系统建设的基础上融入管理手段,制定适应自身企业特点的应急机制和体系。应急管理流程适合于企业各项安全事件的应急处理,对于大型安全事件来说,如何快速高效的进行问题汇报和快速响应处理是应急管理流程的核心。大唐财务公司针对不同事件制定了不同的标准和等级,并根据紧急程度、危害程度等设置不同的流程,从而提高应急响应效率,缩短恢复时间。同时给予容灾备份体系,制定一系列操作层面的处理办法,明晰问题种类和针对不同问题的具体操作步骤,确保容灾备份系统在安全事件发生时的快速切换,降低操作风险。
2、搭建应急管理组织和团队。大唐财务公司在建立规范应急流程的同时也搭建了较为完备的应急管理组织和专业团队。在企业内部,建立应急管理领导小组,负责组织领导企业信息安全应急工作、审定企业网络与信息安全应急预案等,并通过信息科技部门组织专业技术团队应对各种安全事件和故障问题的发生,不断提升专业能力,增强应急响应能力。针对容灾备份技术,定期开展有关技术和系统使用方面的培训,不断强化专业团队的操作知识,提升专业团队的操作水平。容灾备份系统对于企业来说是解决安全问题的基础,但是只有工具没有人员队伍也是无法发挥系统的效用。因此,需要建立一套适合本企业业务架构和职能特点的应急管理组织。大唐财务公司根据实际情况建立了应急管理组织体系,通过应急领导小组、信息技术部、业务部门和具体运维岗多级人员构成了稳定高效的应急管理和执行体系,并在组织体系基础上制定了一系列流程、办法和制度,提高应急管理能力。
3、建立应急演练机制。大唐财务公司在灾备系统建设的基础上组织相关团队人员定期开展应急演练,厘清不同类型的故障和事件问题,并针对不同问题和事件事先制定好相应的解决方案,定期在公司内部开展全员的或者较大范围的应急演练,从而提升组织和人员间的配合程度,提升人员应对突发事件的处理能力和响应时间。大唐财务公司每年都会举办多次应急演练,结合每年国家的安全生产月,进一步完善应急预案内容,提升应急组织和人员的实际处理能力。同时,还不定期开展对外示范演练,进一步提升应急能力。通过大规模的公开实战演练,全面考验企业应急管理组织架构中各相关部门的协同工作能力,检验灾难恢复策略合理性及其可操作性,验证核心系统灾难备份体系技术方案的有效性。
五、总结习近平指出,“没有网络安全就没有国家安全,没有信息化就没有现代化。”大唐财务公司正是在国家高度重视信息安全的大背景下,凭借创新的思路和因地制宜的理念,用实际行动践行业务连续性与容灾备份体系的建设历程,也为广大信息科技工作者提供一条具有参考意义的发展模式。随着企业对于容灾备份系统的需要越来越多,为了真正保障企业信息安全,建设适合企业业务的容灾备份系统,选择先进的容灾备份技术,建立标准规范的应急管理机制是提升企业信息安全能力和水平的关键。
预览时标签不可点收录于话题#个上一篇下一篇