中文      English
 
 
世界轨道交通资讯网

容灾系统建设关键技术探讨

2009-04-21 来源: 浏览次数:

    今天的CIO们已认同了一个事实:对于高度依赖信息以及信息集中的企业来说,如何尽量降低灾难给企业带来的负面影响是需要高度重视的。容灾建设在我国经过多年的发展,规范模型已经基本成熟。国务院信息化办公室领导编制的《信息系统灾难恢复规范》(GB/T 20988-2007 )成为了中国信息系统灾难备份与恢复的第一个国家标准。在这个规范中,将灾难恢复的能力划分成六个等级如下:

6级-数据零丢失和远程集群支持

实现远程数据实时备份,
实现零丢失;应用软件可以实现实时无缝切换;
远程集群系统的实时监控和自动切换能力

5级-实时数据传输及完整设备支持

实现远程数据复制技术;
备用网络也具备自动或集中切换能力

4级-电子传输及完整设备支持

配置所需要的全部数据和通讯线路及网络设备,
并处于就绪状态;
7*24 运行;更高的技术支持和运维管理

3级-电子传输和部分设备支持

置部分数据,通信线路和网络设备;
每天实现多次的数据电子传输;
备用场地配置专职的运行管理人员;

2级-备用场地支持

预定时间调配数据,通信线路和网络设备;
备用场地管理制度;
设备及网络紧急供货协议 ;

1级-基本支持

每周至少做一次完全数据备份 ;
制定介质存取、验证和转储的管理制度;
完整测试和演练的灾难恢复计划

    企业经过风险分析、业务影响分析后,梳理出每个应用系统需要容灾的等级,然后选择合适的技术和流程实现。清晰的业务目标和流程梳理,是容灾系统成功的关键。

    这个6级规范主要包含三个重要技术关键点:

    ● 处理能力恢复支持:供货协议级、备用场地级、设备和网络就绪级

    ● 应用数据的传输方式:批量数据物理搬运,批量数据电子传输,批量传输及加载,实时传输,实时同步传输

    ● 容灾系统管理:应用切换流程的建立、维护和自动化

    赛门铁克公司解决方案的强项是数据传输和容灾系统的管理上。赛门铁克的两款在市场上有极高声誉和广泛客户基础的产品NetBackup和Storage Foundation HA/DR能够覆盖所有6个容灾级别的实现。

容灾流程管理系统

    容灾系统和普通应用系统最大的区别在于:应用系统一经建立,立即投入使用,任何的功能问题、性能问题、架构问题可以随时发现并予以解决。而容灾系统是一份保险,不发生灾难时永远不会真正使用它。虽然建成之初一般都会进行广泛地测试,但是由于高速成长企业的IT应用环境是急剧变化的,建成之时的测试很快过时。这样带来的挑战是很难发现它的问题,难于保证真正发生灾难时,是否能够立即投入使用。因此在企业容灾计划中,容灾系统维护流程最重要的环节就是容灾演习。由于完善的容灾演习往往需要花费大量的人力、物力,并且有业务停顿,使得这种演习时间间隔不能太短,否则成本太高。常见的容灾计划中,演习一般是一年两次或一次。

    很多企业发现这种演习根本靠不住。每次演习时除了业务流程占用太多的时间外,IT系统几乎都不能够按照预设的RTO恢复起来,主要存在的问题有以下几个方面:

    ● 生产系统存储变更没有反映在容灾中心

    ● 容灾中心应用系统的配置改变不正确

    ● 容灾中心系统的补丁不正确

    ● 人工操作失误多引起的延时

    ● 有时候容灾中心的数据甚至不一致,需要从磁带备份中恢复

    这些问题发生的根源就是容灾中心的系统不能随时测试,因而不能及时发现并解决问题造成的。如果没有手段解决这个问题,可以说容灾系统形同虚设,不能按照预期的目标应对灾难。

容灾系统漏洞扫描

    赛门铁克在容灾系统漏洞扫描和自动测试领域提供先进技术。DRA可以动态地扫描生产中心和容灾中心的IT环境,建立应用到数据的拓扑映射,及时发现两个系统不一致的地方,包括复制卷、系统配置、软件版本等等。同时可以发现潜在风险,例如数据库日志和数据在同一个逻辑卷上。DRA可以理解复制、HA、数据库和SAN配置,提供2500多种漏洞的检测,并可以各种报表图示化显示。基于此报告,可以及时地修复系统缺陷,减少容灾系统的风险。

容灾系统数据一致性验证

    赛门铁克Storage Foundation HA/DR提供自动化的实时地容灾数据一致性验证工具。容灾服务器通过软件做一个真实数据的简单快照,并且将安装在它上面的应用启动,使之测试数据可以使用,并将记录所有环节的日志。一旦有问题可以从日志中及时发现并修复。Storage Foundation HA/DR通过策略周期性(例如每周一次)地运行这个过程,没有任何业务停顿和额外的人力物力消耗。数据一致性测试极大地提高了容灾中心的可用性,减少了正规容灾业务级演习的时间和成本。

应用灾难恢复自动化工具

    Storage Foundation HA/DR内置的集群管理软件VCS可以监控两个中心的应用系统状态,并完成容灾中心应用系统快速恢复。VCS采用一个控制台统一管理企业内运行在任何服务器平台上所有的应用,其高可用性,包括多个生产中心和容灾中心。这种管理模式不仅能够将普通HA和异地集群技术合二为一,及时发现和判断应用的异常,辅助更快地恢复应用环境,同时降低企业内多种集群软件维护的复杂性。试想如果没有自动化的工具帮助,一个大型应用环境恢复所有的应用需要多少时间?如果专业的人士恰巧不在,又将是什么局面?VCS目前是市场上实现6级容灾必不可少的工具,是IBM GTS推荐的解决方案。

容灾系统数据传输

    6级规范中数据传输方式实际上归为两类:实时和非实时。实时数据传输就是通常所说的数据复制技术来。而非实时数据传输,常用的数据备份和恢复软件就可以担当。

实时数据传输

    赛门铁克Storage Foundation HA/DR内置的逻辑卷管理软件提供两种数据实时传输方式:基于FC的远程逻辑卷镜像,以及基于IP的远程逻辑卷复制。基于主机的数据传输技术今天被广泛使用的背景,一方面源于服务器CPU、内存等部件的价格急剧下降(比阵列内存更便宜),另一方面源于客户挣脱存储硬件锁定带来的成本上升和管理复杂局面的需求。

    单就解决方案上讲,Storage Foundation基于FC的远程数据镜像解决了同城容灾中应用零停机的需求。一直一来,同城容灾中都采用了阵列复制的技术,但是由于这种复制架构中应用服务器不能同时存取两个互为备用的阵列,致使在主阵列故障时,需要停机识别备用阵列,降低了客户的投资回报。在远程逻辑卷镜像架构中,两个阵列对于主机的地位是对等的,任何阵列出现故障,都对应用没有影响(如下图所示)。逻辑卷镜像更多的优势还有高性能、无硬件锁定、阵列维护无停机、管理简单等。这种技术目前在中国广泛地应用在同城容灾和同机房存储加固中。

非实时数据传输

    一个企业容灾计划中,不同等级的应用往往会采取不同的技术实现。对于1-4级的容灾而言,传统的数据备份和恢复是最佳成本的选择。赛门铁克Netbackup最常用的容灾架构如下:

    生产中心和容灾中心各有一个备份控制服务器和备份设备。备份设备可以是磁带库,也可以是磁盘设备。两个中心之间的设备可以不一样。两个中心之间有SAN相连。平时生产中心的备份服务器工作,数据同时传送到本地设备和容灾中心的设备中。一旦生产中心发生灾难,容灾中心的备份控制服务器开始工作,可以从它所在位置的备份设备中恢复数据及操作系统,从而尽快地恢复应用。

    容灾系统建设发展到今天,数据传输、网络等技术也许已经很成熟,但是容灾演习的经验证明容灾流程管理需要进一步加强和改善。赛门铁克提供这个方面独到的技术和产品能够帮助我们提高容灾系统的高可用性。 ■

(作者:赛门铁克软件(北京)有限公司)

上一篇:第一页
下一篇:最后一页

相关文章

专  题
 
 
 
封面人物
市场周刊
2023-07
出刊日期:2023-07
出刊周期:每月
总481期
出刊日期:(2014 07 08)
出刊周期:每周