警务云双活大数据中心解决方案设计设计报告材料

word警务云灾备技术建议书2016年10月28日1 项目概述 3 项目背景 4 系统现状描述 4 应用系统现状 4 IT系统现状 4 需求分析 5 行业开展要求 52 系统总体设计原如此 83 容灾建设方案 10 业务系统特征与灾备需求 11 公安行业信息化开展趋势 11 灾备建设需求 11 警务综合平台场景分析 11 总体架构设计 11 应用双活架构设计 114 关键技术 11 网络层解决方案 11 全局负载均衡(GSLB) 11 DWDM 13 HyperMetro技术 15 主机层解决方案 20 VMware容灾技术 20 数据库层解决方案 21 Oracle RAC技术 21 应用层解决方案 24 Weblogic集群技术 24 管理层解决方案 29 灾备决策支持平台方案 295 容灾相关产品与规格 30 Tecal RH5885 V3机架服务器 30 功能和价值 30 规格参数 31 OceanStor V3系列存储 31 功能和价值 31 规格参数 32 FusionSphere云操作系统 32 Fusionpute虚拟化 32 FusionManager云管理 34 规格参数 35 SNS系列 35 功能和价值 35 规格参数 36 BIG-IP 本地流量管理器平台 36 功能和价值 36 规格参数 37 BIG-IP 广域流量管理器平台 37 功能和价值 37 规格参数 37 OceanStor BCManager管理软件 37 产品特性 37 应用场景 38 规格参数 386 方案配置清单 387 相关成功案例 38 某某公安客户本地双活项目 38 项目背景 38 项目需求 38 解决方案 38 客户价值 39 某某公安厅同城应用双活灾备系统项目 39 项目需求 39 解决方案 39 客户价值 40 某某省公安厅居民身份查询系统同城灾备建设 40 项目需求 40 解决方案 40 客户价值 41 成功案例列表 41文档格式要求://一级标题 中文采用: 黑体 小二 英文采用 Arial:小二 //二级标题 中文采用: 黑体 三号 英文采用 Arial:三号//三级标题 中文采用: 黑体 小三 英文采用 Arial:小三//四级标题 中文采用: 黑体 四号 英文采用 Arial:四号//正文采用 宋体:小四 英文采用Arial:小四,段落行距为1.5倍 · 当前生产中心I/O性能数据收集主要收集需要进展灾备保护的应用、主机存储的I/O性能数据。
数据的收集从两方面获得:ü 从主机上获得I/O性能数据〔如在UNIX平台上可利用IOSTAT,SAR可得到I/O性能数据;在Windows服务器上可利用Perfmon工具获得Windows服务器的I/O性能数据〕;ü 从存储平台上获得I/O性能数据,通过存储平台的性能采集工具可以获得访问存储的每个LUN上的I/O分布情况,包括I/O特征(EMC提供完整的工具收集存储平台的I/O性能信息)//分支结构采用以上格式1 项目概述1.1 项目背景随着XXX公安的业务量增长和业务的高速开展,对于IT系统的依赖程度越来越高,XXX公安存在数据中心新建、升级扩容、业务迁移与整合以与灾备建设需求使用特定规格产品设计,提供简单可靠、易于部署和管理、便于扩展和升级的IT根底架构和灾备系统架构,以与业务迁移、数据中心整合的专业服务,为用户提供更好的投资保护,满足用户业务开展的需求1.2 系统现状描述1.2.1 应用系统现状根据××项目的具体情况补充,从业务的角度梳理客户灾备系统建设需要的考虑的全部应用系统,包括应用系统的名词、应用系统的功能简述,以与系统提供的服务时间,下表为示例序号应用系统名称应用系统功能简述日常服务时间段1警务综合应用平台核心应用,旨在实现公安业务系统整合,消除部门间的信息孤岛,在整合根底上进展各类应用,实现公安信息资源的最大化利用。
24(08:30-17:302情报信息综合应用平台关键应用, 金盾二期重点建设项目,在获取公安内、外部信息资源的根底上利用综合信息资源库中的各类信息,进展分析和挖掘,发现各类情报并协通各警种和条线部门24(08:30-17:30)3部门间信息共享服务平台关键应用平台,从外部社会单位〔如银行、电信、民航、邮政、证券、保险、社保〕进展数据采集、数据整合和信息共享08:30-17:304网上作战系统刑侦核心业务系统,与各类资源库、现场勘查管理系统、指纹比对系统同,DNA系统、警综、大情报系统与其他相关警种信息管理系统的信息交换,实现信息资源库的共享整合,形成综合信息数据库群,提供智能串并案功能、线索应用功能、手机话单分析功能、人员某某号和电子信息的布控和比对预警功能24(08:30-17:30)5人口信息管理系统关键应用,二代某某登记指纹人口信息管理系统升级改造机会点,主要针对人口信息管理系统中的某某管理子系统进展,将指纹信息前端采集系统和指纹信息管理系统作为某某管理的子系统从系统进展开发和系统集成08:30-17:301.2.2 IT系统现状1.2.2.1 服务器现状根据××项目的具体情况补充,可参考如下格式〔下表为示例〕:主机设备用途数量品牌与型号主机冗余策略机房OS数据库(版本)中间件用于系统数据交换平台2HP-UNIX rp5470UNIXSyBase交换平台的数据库Amtrix某某路数据库1HUAWEIRH5885windows 2003 R2/X江〔大机房〕应用1HUAWEIRH2288windows 2008 R2 / Weblogic其他机房数据库1HUAWEIRH5885windows 2003 R2 /其他机房1.2.2.2 存储现状业务系统中的数据库总量大约为40TB,虚拟机占用空间约为50TB。
现网中的存储设备为NetApp FAS3000、IBM DS5000以与华为S5600T等根据××项目的具体情况补充〔下表为示例〕:品牌与型号使用年限机房根本配置HW 5600T1年以上X江大机房600GB SAS * 243T NL SAS * 12BM DS34005年以上某某路机房250GBHP8年以上某某路机房430GB1.2.2.3 网络现状**局的数据机房有3个,两个位于**〔A和B〕,一个位于**局办公室〔C〕A机房运行了大多数业务系统,B机房为灾备机房,C机房运行了一些OA业务系统C机房业务将来要迁移至A机房两个机房之间直线距离2km,光纤距离7~8km,约12根裸纤可用;C和B之间,有两条租用的专线:1条是2Mb/s的专线;另1条是60Mb/s的专线,业务数据已经占用了40Mb/s左右的带宽,剩余十几Mb/s的带宽作为灾备数据的传输下表为示例:机构名称线路用途连接的应用系统线路类型和带宽**局**分部同城政务内网连接内部办公业务系统〔财务、非税收费用等)SDH专线,2Mbps逻辑链路**局**分部同城政务外网连接生产业务系统中国电信城域网,MPLS-VPN 40Mbps**局**分部同城政务外网连接生产业务系统中国电信城域网,MPLS-VPN 80Mbps**局**分部同城政务内网连接内部办公业务系统〔财务、非税收费用等)SDH专线,2Mbps逻辑链路**局**分部互联网web服务中国电信互联网60Mbps1.3 需求分析1.3.1 行业开展要求1.3.1.1 国家灾难恢复规X要求国家对加强信息安全保障工作十分重视,先后出台了多项有关灾难备份的保障措施。
已出台的有关文件如下:2003年9月,中共中央办公厅、国务院办公厅下发了《国家信息化领导小组关于加强信息安全保障工作的意见》(中办发[2003]27号)该指导意见明确提出国家和社会各根底信息网络和重要信息系统建设要充分考虑抗毁性与灾难恢复,制定和不断完善信息安全应急处置预案灾备建设要从实际出发,提倡资源共享、互为备份文件要求:要高度重视灾难备份工作;灾难备份建设要从实际出发,提倡资源共享,鼓励社会力量参与灾难备份设施建设和提供技术服务;明确了“谁主管,谁负责、谁运行,谁负责〞的建设与管理方针2004年1月9日,全国信息安全保障工作会议下发了《关于做好国家重要信息系统容灾备份工作的通知》该通知明确指出国家重要信息系统容灾备份工作的主要目标是“提高抵御灾难和重大事故的能力,减少灾难打击和重大事故造成的损失、确保重要信息系统的数据安全和作业连续性,防止引起社会重要服务功能的严重中断,保障社会经济的稳定〞通知指出:国家重要信息系统容灾备份建设工作要坚持“统筹规划、资源共享、平战结合〞的原如此,充分调动和发挥各方面的积极性,全面提高抵御灾难打击能力和灾难恢复能力与此同时,为贯彻落实27号文件和中央领导的指示,国信办于2004年9月份下发了《关于加强国家重要信息系统灾难备份工作的意见》(信安通〔2004〕11号)。
文件强调了“统筹规划、资源共享、平战结合〞的灾备工作原如此;国家为此圈定了银行、保险、证券、税务、海关、民航、铁路、电力等必须建立灾难备份的八个重点行业,同时提出,灾难备份建设要从实际出发,提倡资源共享,可以采用自建、共建和利用社会化服务等模式,鼓励社会力量参与灾难备份设施建设,提倡使用社会化灾难备份服务,走专业化服务道路2007年11月1日,国家正式下发了《信息安全技术信息系统灾难恢复规X》(GB/T 20988-2007) 该规X作为我国目前颁布的第一部关于信息系统灾难恢复工作的行动指南和标准;明确定义了灾备行业的规X用语;规X了整个灾难恢复的工作流程;作为资料性附录,提供灾难恢复预案的模板;引入了灾难恢复的分级机制(目前确立为六个级别)规X指出要加快实施八个重点行业(银行、电力、铁路、民航、证券、保险、海关、税务)的灾难恢复工作1.3.1.2 行业灾难恢复规X要求在经济全球化、社会信息化的时代背景下,社会面貌发生了深刻的变化,影响国家安全和社会稳定的因素明显增多,维护稳定工作面临的形势呈现出许多新变化、新特点同时,信息化的开展,提高了社会生产力,也为进一步加强和改良公安工作提供了强大的动力。
多年以来,我国公安机关在大力提高队伍的整体素质和战斗力,有效维护国家安全和社会稳定的斗争中,始终坚决不移地走“科技强警〞之路,坚持向信息化要警力、要战斗力孟建柱部长向全国公安机关和广阔民警提出的“三项建设〞中,第一项就是“推进公安信息化建设〞他强调,要深入推进公安信息化建设,切实提高公安机关在动态环境下驾驭社会治安局势的能力要加强和改良执法工作,进一步细化执法标准、严密执法程序,切实提高执法精细化水平要深入推进社会矛盾化解工作,创新社会管理,更加积极地开展矛盾纠纷排查,更加积极地运用调解手段化解矛盾要坚持公安信息化建设与群众路线相结合,不断完善群众工作机制、创新群众工作方法,构建和谐警民关系要进一步加强公安队伍建设,提高队伍管理科学化水平,努力打造一支素质过硬、作风优良、公正廉洁的钢铁队伍前不久,公安部副部长X新枫在全国公安信息化建设与应用推进会上指出,各地公安机关要明确目标,强力推进,坚决打赢信息化建设应用的攻坚战他说,全国公安信息平台建设和应用已经在平台框架、研判体系、实战应用等方面取得了重大阶段性成果,在维护国家安全和社会稳定方面,已经发挥出了越来越大的作用围绕深入推进信息平台的建设与应用,他强调,随着信息主导警务战略的深入推进,各地公安机关要紧紧抓住有利时机,进一步加大工作力度:首先要以平台功能完善为抓手,进一步理顺信息化应用总体架构;第二,要以分析研判为重点,进一步落实人员动态管控措施;第三,要以根底信息采集维护为着力点,建设一支高水平的信息采集维护专门队伍;第四,要以研判队伍专业化建设为载体,进一步提高析研判的能力和水平。
公安信息化建设的主要任务是,加快完善网络、安全和信息中心等信息化根底设施根据实际需求,进一步调整、优化网络结构,增加基层所队接入网带宽在地市级以上公安机关开展涉密应用的部门,完善密码设备配备,加大涉密安全保障系统的覆盖X围对公安身份认证和访问控制系统,进一步进展扩容,并建设、完善公安信息网边界接入平台增强信息中心数据处理能力,提高服务保障水平通过对网络根底设施、安全技术设施和信息中心技术系统的优化与增强,进一步满足和保障应用普与深化的需要加快构建以“情报信息平台〞为龙头的高端应用系统建设在整合各部门、各警种信息资源的根底上,加快构建以信息化应用为支撑、以情报信息研判为主要内容、以服务于警务决策为目标的公安“大情报〞系统,坚持以情报信息主导警务积极推动地理信息技术与公安信息系统的应用结合目前公安信息化建设已开始进入到高端应用阶段,在“金盾工程〞二期中,以构建公安“情报信息〞系统为龙头,以平台建设、资源整合、信息共享为主线,全力推动应用普与和深化,妥善解决开展不平衡问题,全面提高公安信息化应用的整体水平各地的建设不断的出现新成果、新经验进展顺利并正在表现出强大的战斗力和生命力2 系统总体设计原如此华为公司针对本次灾备项目,将依据技术先进性、可扩大性、高可靠性、高可用性、成熟性、可管理性的总体设计思想;结合华为公司众多灾备系统成功案例和实际经验,进展整体的解决方案设计。
l 技术先进性:系统设计应采用当前先进而成熟的技术,不仅可以满足本期工程的需求,也应把握未来的开展方向l 可扩大性:在系统设计时应充分考虑可扩大性,从而确保新功能、新业务的增加在原有的系统平台上扩展和实现l 高可靠性:具备先进的灾备的设计;充分保证系统的高扩展能力和高容错能力,具有通道负载自动均衡能力和性能调节能力,提供极为充分的可靠性各项指标设计l 高可用性:在不停机情况下,实现不停机扩容、维护、升级等服务,提高性能以满足新的业务需求,具备7×24×365连续工作的能力l 成熟性:应尽量选用经过大量运用、成熟可靠的系统l 可管理性:要求配置实时性能监测管理软件可对CPU使用率、内存使用率、交换区使用情况、I/O操作、队列状态、磁盘空间、卷磁盘错误、系统事件、系统中各进程对系统资源占用等性能和操作数据等服务器性能进展实时监控和管理l 可实施性:选用成熟的技术,成熟的案例经验和设计方案,制定详细的技术实施方案3 容灾建设方案3.1 业务系统特征与灾备需求3.1.1 公安行业信息化开展趋势警务云数据中心建设虚拟化是云平台建设的根底通过虚拟化技术进展整合,形成一个对外提供计算资源为主的池化管理〔包括服务器池、存储池、网络池等〕,同时提供运行环境等根底服务。
服务器虚拟化能够消除XX省公安厅信通口原有业务系统的“一台服务器运行一个应用程序〞模式下的效率低下现象,在这种模式下,大多数服务器远未得到充分利用借助服务器虚拟化技术,一台服务器可用作多个“虚拟机〞,而且每个虚拟机都可以在不同的环境下运行,例如 Windows、Linux或Apache因此,采用服务器虚拟化能够将多台服务器整合到更少的物理设备上,从而有助于减少空间、能耗以与管理需求通过服务器虚拟化平台的建设,可以将现有的业务系统逐步迁移到服务器虚拟化平台,并通过双活数据中心帮助增强业务连续性并提供全面的数据保护,以便管道局能够获得连续的应用程序可用性以与跨两个物理站点的自动灾难恢复能力网络虚拟化通过各种网络技术,将不同的应用相互隔离,使得不同用户在同一网络上不受干扰地访问各自不同应用在交换网络中可以通过虚拟局域网〔VLAN〕技术来区分不同业务网段,在路由环境下可以综合使用VLAN、MPLS-VPN、Multi-VRF 等技术,实现对网络访问的隔离在数据中心内部,不同逻辑网络对安全策略有着各自独立的要求,可通过虚拟化技术将一台安全设备分割成假设干逻辑安全设备,供各逻辑网络使用存储虚拟化是指利用虚拟化技术,统一整合管理FC SAN,IP SAN等多种存储设备,形成统一的资源池供上层业务使用,屏蔽不同存储之间的差异。
站点双活+异地数据备份〞灾备体系建设传统的数据中心容灾已经从主备数据中心开始向双活数据中心过渡主备数据中心的建设模式可以在很大程度上提升业务连续性用户所有的业务系统都在主数据中心运行,而在备数据中心为业务系统提供冷备或热备,当主数据中心的应用出现故障时,可以将单个应用或数据中心整体切换到灾备数据中心但这种模式造成了备数据中心常年处于闲置状态而造成资源浪费而通过资源整合,可以极大的提升资源利用率,同时双活数据中心的服务能力是双倍的3.1.2 灾备建设需求业务恢复需求是制定灾难恢复规划的重要依据,用以确定灾难恢复目标和确定灾难恢复策略与灾难恢复顺序,指导开展应急恢复工作按照公安行业业务系统重要性与业务系统中断对整个公安业务影响的X围和程度,可将公安业务系统灾备建设需求分为四个等级:公安业务业务分级A级 B级 C级 D级 业务重要性核心业务 重要业务 一般业务 辅助与测试业务 业务影响X围部级/省级 市、县级 办公室级 小组级 数据重要性核心原始数据 二次处理数据 总结数据 测试数据 业务连续性〔维护时间〕 <30分钟/次<60分钟/次<2小时/次<4小时/次 公安业务系统按照业务模式可划分为BSS、OSS和MSS三类,其应用模型对应OLTP和OLAP两种模式,如下表所示:公安业务类型划分业务模式划分 BSS(业务支撑系统)公安情报、综合信息查询、交通管理、出入境、机动车驾驶人信息、刑侦、治安、决策指挥等 OSS(运营支撑系统) 内部网管、网优、资源管理PKPMI、数据交换平台、请求与服务、搜索引擎等系统 MSS(管理支撑系统) OA、、财务、ERP,手机办公、后勤管理等系统 应用模式划分 OLTP BSS、OSS;高数据负载、高网络负载;多线程应用;多用户并发;响应实时性高、事务小而多〔除峰值阶段〕 OLAP BASS;高数据负载;多线程应用;响应实时性较低、事务大而少 结合公安行业的主要应用系统,对业务系统的灾备建设需求综合评定如下表所示:业务名称业务模式应用模式业务重要性数据重要性业务连续性综合评定警综系统BSSOLTP/OLAP核心业务核心原始<30分钟A 情报系统BSSOLTP/OLAP核心业务核心原始<30分钟A 部门间共享和服务BSSOLTP重要业务核心原始<30分钟APGISBSSOLTP重要业务核心原始<30分钟A综合信息查询BSSOLTP/OLAP核心业务二次处理<30分钟ADNA信息系统BSSOLTP/OLAP重要业务核心原始<60分钟A/B指纹信息系统BSSOLTP/OLAP重要业务核心原始<60分钟A/B现场勘验系统BSSOLTP重要业务核心原始<60分钟A/B交通综合管理系统BSSOLTP/OLAP核心业务核心原始<30分钟A出入境管理系统BSSOLTP核心业务核心原始<30分钟A经侦信息系统BSSOLTP核心业务核心原始<30分钟A人口信息管理系统BSSOLTP/OLAP核心业务核心原始<30分钟A治安信息管理系统BSSOLAP重要业务核心原始<60分钟A/B决策指挥BSSOLAP核心业务核心原始<60分钟A/B资源管理OSSOLTP重要业务核心原始<30分钟A网管系统OSSOLTP重要业务核心原始<30分钟A数据交换系统OSSOLTP重要业务二次处理<60分钟A/B请求服务系统OSSOLTP重要业务二次处理<1小时BOAMSSOLTP重要业务二次处理<60分钟A/BMSSOLTP重要业务二次处理<2小时B后勤管理MSSOLTP一般业务二次处理<2小时C测试业务nBSS/OSS/MSSOLAP测试业务测试数据<4小时D3.1.3 警务综合平台场景分析3.1.3.1 业务场景分析公安的大局部业务各类应用系统隶属于公安系统不同业务管理部门,是在不同的时期建立的,因此它们所运行的平台、数据结构等是不同的。
警综平台是公安主体业务网上办理、网上流转和警务信息资源大集中、高共享的信息化工作平台,实现公安业务系统整合和业务信息最大化共享其建设目标:Ø 实现公安业务系统整合,完成单点登录,全网漫游;Ø 建立公安信息库进展整合,形成数据仓库,消除部门间的信息孤岛;Ø 在整合根底上进展各类应用,实现公安信息资源的最大化利用图 31警务信息综合应用架构警综平台的建设涉与到以下8个根底信息数据库:数据库名称责任单位人口根本信息资源库户政出入境人员资源库出入境管理机动车/驾驶人信息库交警警员根本信息资源库人事在逃人员信息资源库监所管理某某犯罪人员信息库监所管理被盗抢汽车信息资源库交警安全重点单位信息资源治安警综平台里面包含诸如警用地理信息系统、大情报系统等多个分支系统,出于应用需求,这些应用系统都具备专用的数据库以与硬件设备,这些数据库和硬件设备也是属于警综平台的一般情况下,这些应用系统都是独立立项建设,然后融入到警综平台中统一维护和管理,具体情况将在下面分项应用系统场景分析中介绍除去专用的应用系统外,警综平台存储建设的重点就是8个根底信息库的建设3.1.3.2 警综平台需求分析Ø 高性能需求:多个业务部门与下级部门同时进展信息录入以与信息查询,需求存储系统高性能以满足业务需要。
Ø 异构阵列统一管理需求:警综平台建设时间长,原本各系统各自建设,警综平台整合时不可能完全抛弃原有系统现有大局部省市的警综平台中,存储系统普遍存在异构存储阵列多,数据互联互通困难,设备管理复杂,扩容、容灾困难等问题需统一管理、统一规划Ø 高可靠与业务连续性需求:警综平台建设的原如此就是警务信息资源大集中、高共享然而信息的集中意味着风险的集中,信息集中后的警综平台一旦发生故障致使业务中断或者数据丢失,其影响的几乎是所有公安系统业务因此警综平台的业务安全性和可靠性在公安内部就是一项重要的政治任务3.2 总体架构设计基于系统总体设计原如此,结合华为公司在**行业灾备系统成功案例和实际经验,推荐**行业灾备总体架构如如下图推荐灾备总体架构为同城和异地的两地三中心模式同城灾备推荐A类业务采用同城应用双活灾备;B类业务采用同城应用主备灾备模式;C类业务采用数据级主备〔如通过阵列异步复制功能实现〕异地灾备推荐A、B类业务采用应用主备灾备模式;C类业务采用数据级主备〔如通过阵列远程异步复制功能实现〕3.3 应用双活架构设计针对公安行业核心业务(如警务云、八大库)的高业务连续性要求,推荐采用华为双活灾备解决方案。
该方案采用虚拟化存储网关和主机集群、网络集群技术在同城的两个数据中心构建跨站点的业务集群和存储虚拟化集群双活灾备方案有别于传统主备模式的容灾方案,传统的主备方案,灾备中心不能对外提供服务,只有当灾难发生时业务才切换到灾备中心,造成业务中断时间长、业务切换风险高和设备资源利用率低的问题,华为双活灾备解决方案能够实现双数据中心同时对外提供负载均衡的业务,并且保障在集群单设备故障或者单站点故障的情况下,数据不丢失、业务不中断,实现RPO=0、RTO=0的业务连续性指标l 同城双活方案架构描述采用虚拟化存储实现存储双活架构,为两个数据中心存储同时提供读写服务,且整个存储系统架构全冗余,任意数据中心故障时,另外一个数据中心有一份存储设备和一样数据可用,最大化提高了业务连续性在新建数据中心部署多台虚拟机服务器平台,以与虚拟化存储和存储阵列等设备,同老数据中心现有的虚拟化服务器平台和之前采购的虚拟化存储设备之间组成双活集群整个双活系统分为存储层、前端网络层与应用层与容灾管理层存储层,新老数据中心各部署一台华为存储,组成一个存储双活集群,为两数据中心主机业务同时提供读写服务同时,在新建数据中心配置与现网HP阵列系列〔如HP XP24000〕同等级和同容量的存储阵列。
为了提升热点数据的存储性能,使高价值硬盘得以更充分的利用,可以配置不同类型的硬盘:SAS、NL-SAS、SSD以合理分配资源;通过业务存储提供的智能分级功能对热点数据进展持续监控并从机械硬盘迁移到SSD中,进一步提升系统性能两个数据中心的存储阵列利用HyperMetro双活技术做镜像冗余配置,使得两个数据中心存储数据实时镜像,互为冗余任意数据中心故障,数据零丢失,实现数据层面的双活网络层,数据中心之间应用集群IP心跳和FC数据传输网络都采用裸光纤直连,传递应用集群信息和双写IO数据同步,满足双活数据中心网络时延要求应用层,两个数据中心的虚拟机服务器构成一个集群,通过警务云虚拟化平台的DRS提供跨数据中心的虚拟化自动负载均衡,通过警务云虚拟化平台 HA提供跨数据中心的自动故障转移功能,实现业务层面的双活容灾管理层,为了实现双活数据中心存储设备的统一管理,建议部署统一容灾管理软件,通过统一容灾管理软件实现双活数据中心的可视化管理,并通过管理软件直观的展示双活业务的物理拓扑针对虚拟机业务双活需要,可以将容灾管理软件部署在两个数据中心当中任意一台虚拟机上,即可实现管理业务的双活建议部署拓扑图如下: 4 关键技术4.1 网络层解决方案 4.1.1 全局负载均衡(GSLB)技术概述随着用户对应用可用性和扩展性需求的进一步增加,越来越多的用户不满足于在单一数据中心提供服务,开始考虑容灾、用户就近访问等问题。
这正是负载均衡设备中的全局服务器负载均衡技术〔GSLB〕所要解决的问题绝大局部使用负载均衡技术的应用都通过域名来访问目的主机,在用户发出任何应用连接请求时,首先必须通过DNS请求获得服务器的IP地址,基于DNS的GSLB正是在返回DNS解析结果的过程中进展智能决策,给用户返回一个最优的服务IP适用场景全局负载均衡技术适用场景如下: l 跨站点负载均衡:可以实现跨数据中心的流量分担,用户就近访问某一数据中心l 客户端访问切换:当生产中心故障,可以将用户的访问流量自动切换到容灾站点,从而实现客户端访问路径的自动切换组网架构GSLB对于DNS请求的处理流程如下:1) 客户端向本地DNS发起站点查询请求2) 当本地DNS中没有该站点对应的IP地址信息时,如此转发该请求给GSLB Master3) GSLB Master转发该请求给所有GSLB Slave4) 所有GSLB Slave反应响应信息给GSLB Master5) GSLB Master会选择最快响应的GSLB Slave〔例如:Site A中的GSLB Slave〕,并返回应答给本地DNS6) 本地DNS转发GSLB Master的应答给客户端。
7) 客户端就可以访问提供服务的应用服务器了,例如:Site A中的Real Server技术特点从GSLB处理流程可以看出,其核心在GSLB策略,常用的一些GSLB策略包括:1) 各内容站点的“健康状况〞GSLB Controller对各内容站点负载均衡设备上定义的VIP或服务器〔没有本地负载均衡的情况〕进展第四层TCP/UDP健康检查和第七层应用健康检查未能通过健康检查的站点不会被选为最优的内容节点2) 地理区域或用户自定义区域一个区域为假设干条IP地址前缀根据用户本地DNS的IP地址,将特定IPX围的用户优先分配到某个通过健康检查的站点值得一提的是,由于DNS本身的工作原理所限,GSLB Controller只能看到用户本地DNS的IP地址,而不是用户终端的IP地址当用户使用错误的本地DNS〔如教育网用户配置网通的DNS服务器〕时,GSLB Controller返回的DNS应答将不是最优的站点这是基于DNS的GSLB的一个弱点,但由于绝大局部运营商现在限制其他运营商的客户使用自己的DNS,出现这种错误配置的比例非常小3) IP地址权重可以为DNS应答中的每个IP地址分配权重,权重决定与其他候选IP相比分配到该IP的流量比例。
4) 站点〔Site〕权重可以为每个Site分配权重,权重决定与其他候选Site相比分配到该Site的流量比例5) 会话能力阈值通过厂商自由的GSLB协议,GSLB Controller可以获得每个站点负载均衡设备当前可用会话数和会话表大小的最大值,当前会话数/最大会话数比值超过定义的阈值时,该站点不再被选择6) 活动服务器指一个GSLB节点绑定到一个VIP上的活动真实服务器数量可以配置策略优先选择活动服务器最多的IP地址 7) 往返时间(RTT)RTT策略是基于区域之外最常用的策略有两种模式的RTT测量:Active RTT测量与Passive RTT测量在实际部署中,由于网络限制和性能原因,Active RTT往往无法使用,Passive RTT更实用一些8) 当前可用会话数 9) 站点管理优先级〔Admin Preference〕为每个站点预设优先级,选择优先级较高的站点10) 10)最少选择选择从前被选择的次数最少的节点11) 11)轮询〔Round Robin〕采用轮询方式选择站点 4.1.2 DWDM技术概述WDM 波分复用〔WDM,Wavelength Division Multiplexing〕是指,在1根光纤上承载多个波长〔信道〕系统,将1根光纤转换为多条“虚拟〞纤,每条虚拟纤独立工作在不同波长上。
由于WDM 系统技术的经济性与有效性,使之成为当前光纤通信8最广泛使用的光波复用技术DWDM技术是指相邻波长间隔较小的WDM技术,工作波长位于1550nm窗口可以在一个光纤上承载8~160个波长主要应用于长距离传输系统适用场景在数据中心之间建设一个L1层的DWDM的9网络,可以提供一个高带宽、超低延迟、高安全性的带宽环境组网架构华为OSN系列OTN设备将为数据中心容灾提供业界领先的广域传送特性,适合于对容量、实时性等要求较高的容灾系统,华为OSN系列具备海量级数据传送能力,最大支持40G/100G×80波(3.2T~8T);支持14种专业级存储接口〔FC/FICON/ESCON等〕,具备7大主流存储厂商的兼容性认证;针对各种容灾组网类型,OSN系列提供电信级的50ms级可靠保护;提供业界最优的3000公里SAN拉远能力,满足长距离异地容灾需求技术特点DWDM的技术特点和优势:1) 充分利用光纤的带宽资源,传输容量巨大DWDM系统中的各波长相互独立,可透明传输不同的业务,如SDH、GbE、ATM等信号,实现多种信号的混合传输如图6所示,多个光信号通过采用不同的波长复用到一根光纤中传输,每个波长上承载不同信号,在一根光纤中传输,大大提高了光纤容量,极大的节约了光纤资源,降低线路建设本钱。
2) 超长的传输距离利用掺铒光纤放大器〔EDFA〕等多种超长距传输技术,可以对DWDM系统中的各通路信号同时放大,实现系统的长距传输3) 平滑升级扩容由于DWDM系统中的每个波长通道透明传输10,不对通道数据进展任何处理,因此,扩容时,只需增加复用光波长通路数即可,方便易行 4.1.3 HyperMetro技术OceanStor系列产品的HyperMetro功能,可以实现存储双活架构,为两个数据中心存储同时提供读写服务,且整个存储系统架构全冗余,任意数据中心故障时,另外一个数据中心有一份存储设备和一样数据可用,最大化提高了业务连续性4.1.3.1 HyperMetro双活集群原理存储双活集群技术HyperMetro最大支持32个存储控制器,向应用服务器提供无差异的并行访问,同时处理应用服务器的I/O请求;各控制器间互为备份,均衡负载,控制器故障后,其承接的业务自动切换到正常控制器,保证系统的可靠性、业务的连续性集群间的通信支持FC或10Ge链路,通信包括集群心跳和数据镜像其工作原理如如下图所示4.1.3.2 存储数据镜像通过HyperMetro LUN功能,保证两个站点磁盘阵列之间数据的实时同步。
两台存储设备上的LUN被虚拟化为一个虚拟的卷,主机写操作通过卷虚拟化镜像技术同时写入两个数据中心的存储设备,保持数据实时一致具体的IO读写流程如如下图所示假设数据中心A阵列收到写I/O,处理流程如下:1、申请写权限和记录写日志:数据中心A阵列收到主机写请求,先申请HyperMetro LUN的写权限;获得写权限后,HyperMetro将该请求记录写日志日志中只记录地址信息,不记录具体的写数据内容;该日志采用具有掉电保护能力的内存空间记录以获得良好的性能2、执行双写:将该请求拷贝2份分别写入本地LUN和远端LUN通常情况下LUN是回写状态,数据会写入该LUN的Cache就会返回3、双写结果处理:等待两端LUN的写处理结果都返回;4、响应主机:镜像卷返回写I/O操作完成如果任何一个存储设备故障,采用日志记录故障期间数据的变化情况,待存储设备恢复正常后,将增量数据后台同步到修复的存储设备,整个过程对主机“透明〞,不会影响主机业务4.1.3.3 存储数据修复单块磁盘可能会因为掉电等异常情况出现坏块如果是可修复错误而且本端无法修复,因为远端站点有镜像数据,如此会自动从远端站点获取数据来修复本地数据盘的坏块,进一步提高系统可靠性。
假设数据中心A阵列收到写I/O,镜像处理流程如下:申请读权限:阵列收到主机读请求,先确认HyperMetro的本地读权限读本地LUN读本地LUN结果返回,如果可修复错误,执行错误修复重定向远端读远端读返回读结果返回本地写入修复4.1.3.4 逻辑错误保护当遭遇病毒攻击或人为误操作等异常时,数据中心的数据可能被破坏采用虚拟快照技术,在操作前对现有数据卷激活快照,实现本地数据保护虚拟快照采用写前拷贝〔COW〕技术,仅将变化的数据拷贝至快照卷,系统资源占用少当原卷数据被错误修改或删除,需要进展恢复时,采用快照对原卷进展回滚,实现数据恢复,并且,快照卷可分别映射给主机进展数据测试和挖掘,不影响生产业务结合华为容灾管理软件,激活快照前触发数据库完全检查点,待数据下盘完成后,激活快照,保证快照数据完全满足数据库的一致性要求,快速拉起数据库4.1.3.5 高可靠仲裁防脑裂技术为保证各种异常情况下,存储双活集群能够进展仲裁,建议设计第三方仲裁站点,以保证极端场景下的业务连续性极端场景包括:出现数据中心整体故障或中间链路故障等场景,存储集群仍然可以访问仲裁服务器进展仲裁,保证业务可靠性和数据一致性有仲裁站点的场景如如下图所示,为保证任一数据中心整体故障或中间链路故障等极端场景下,主机业务的连续性,方案建议采用仲裁服务器。
这样,可以保证极端灾难场景下,存储集群仍然可以访问仲裁服务器进展仲裁,保证业务可靠性和数据一致性第三方仲裁站点位于XX点,XX点与两个数据中心之间通过XX线互联仲裁服务器可以运行在虚拟机上当出现任一数据中心整体故障或中间链路故障等极端场景,整个集群的仲裁过程如下:XX数据中心与XX数据中心之间的中间链路断开,导致两个数据中心集群发生分裂,进而两个中心之间的存储虚拟化平台发生“脑裂〞,存储虚拟化平台从一个大集群分裂为两个小集群;根据集群“脑裂〞的通用原理,当大集群分裂为两个小集群时,每个小集群分别抢占第三方仲裁服务器,抢占成功的小集群“获胜〞,将继续对外提供服务,为应用提供存储访问空间;未抢占到仲裁信息的小集群如此自动退出集群,不再对外提供服务;当中间链路恢复时,“自动退出的小集群〞检测到中间链路由故障变为正常,尝试与“继续服务的小集群〞握手通信,经过握手通信两个小集群再次组成一个大集群,以Active-Active模式提供服务,互相之间实现冗余如下图列出了基于仲裁服务器模式,各种故障场景下双活业务是否存活的概要H1 和H2 表示组成双活HyperMetro LUN的两个阵列,C表示对应的仲裁服务器。
无仲裁站点的场景假设无第三方仲裁站点,建议用户在某个数据中心部署仲裁服务器,业务表现和上述的描述大致一致,但如果仲裁服务器所在的数据中心整体故障,双活业务停止假设无仲裁服务器,用户可以设置其中一端阵列为优先站点,另一端为非优先站点当发生脑裂场景,或者非优先站点故障时,优先站点上的lun继续提供服务,非优先站点的lun停止提供服务不足之处在于当两阵列之间失去联系,可能是站点间链路丢失或其中一个阵列故障系统不能区分这两种情况,当优先站点阵列故障时,非优先站点不能接收双活业务,双活业务停止 4.2 主机层解决方案 4.2.1 VMware容灾技术技术概述虚拟机HA是当计算节点上的虚拟机出现故障时,系统自动将此虚拟机在其他正常的计算节点上恢复,使该虚拟机能正常使用虚拟机在HA的过程中不可以使用适用场景虚拟机HA使用于虚拟机故障或者主机故障场景,通过监控虚拟机或物理机,当虚拟机故障时在原主机上重新拉起;物理机故障如此在其它主机上拉起所有故障的虚拟机组网架构生产站点局部正在运行的主机或虚拟机发生异常〔如主机下电、主机重启、虚拟机蓝屏〕,虚拟机优先通过DRS功能在本地冗余主机上HA。
假设本地冗余主机资源不足,如此虚拟机通过集群内HA功能在容灾站点主机上HA 发生容灾时,虚拟机短时间内不可用〔依赖于虚拟机HA时间〕,数据无丢失容 灾后,生产站点虚拟机仍然访问本地存储资源,容灾站点容灾虚拟机将跨站点访问生产站点的存储资源技术特点当计算节点上的虚拟机出现故障时,系统自动将此虚拟机在其他正常的计算节点上恢复,使该虚拟机能正常使用虚拟机在HA的过程中不可以使用HA的目标服务器必须满足该虚拟机需要的资源要求 虚拟机HA只能在同一个迁移域中进展,一个迁移域即一个Cluster 4.3 数据库层解决方案 4.3.1 Oracle RAC技术技术概述RAC全称 Real Application Clusters,是Oracle数据库高可用技术的一种,也是Oracle数据库支持网格计算环境的核心技术从10g版本开始Oracle推出了Oracle Clusterware 集群软件,使得RAC不再依赖于第三方厂商得集群软件实现多节点并发的集群数据库 如下列图,一组Oracle RAC数据库服务器组成一个集群,他们之间通过高速内网相互联,共享缓存。
用户通过外部网络连接到数据库集群,当数据库服务器有单点故障时,上层用户不会受到任何影响数据库集群共享下层的SAN存储Oracle RAC是Oracle数据库高可用技术之一,也是Oracle数据库支持网格计算环境的核心技术,可提供多节点并发的数据库应用,并通过监听客户端和服务器端实现负载均衡,把用户连接分配到不同的节点上执行Oracle Extended RAC在Oracle RAC技术根底上提供了一种跨数据中心的双活集群架构,当单中心故障时,另外一个数据中心存活的节点可自动接收业务,接收过程对上层业务透明,用户无感知基于Oracle Extended RAC,构建双活数据中心来并行承当一样业务,提高数据中心的整体服务能力和系统资源利用率成为可能在这种场景下,两个数据中心互为备份,当单数据中心故障时,业务可以能自动切换到另一数据中心,业务不中断Oracle Extended RAC的核心是共享存储子系统,通过共享访问数据文件、重做日志文件、控制文件和参数文件的方式,确保各节点都能进展读写操作,且在单个节点出现故障时,剩余节点能够自动接收并恢复数据库双活架构数据中心方案采用共享卷技术,将跨数据中心的存储空间以共享方式提供给上层应用访问,满足Oracle RAC共享存储需求,使得两个数据中心的节点可构成一个跨数据中心Oracle Extended RAC集群。
Oracle Extended RAC集群配合Oracle监听器技术,可实现客户端在数据中心间业务双活访问和负载均衡;配合Oracle透明应用程序故障转移〔TAF〕技术,当服务器或单数据中心故障时,使客户端能够在新的连接中继续工作,防止业务中断构建以Oracle Extended RAC为数据平台的双活数据中心,底层以虚拟化智能存储和智能光传送平台为根底,以100km光传输距离为限,解决了传统灾备中心不能承载业务和自动业务切换的问题,为应用系统提供最高的业务连续性保障,确保业务系统发生设备故障、甚至单数据中心故障时,业务无感知自动切换,实现RPO〔Recovery Point Objective〕和RTO〔Recovery Time Objective〕都为零以Oracle Extended RAC为数据平台的双活数据中心,其亮点和优势如下:l 高可用性:两中心数据实时镜像同步,任一数据中心故障,另一数据中心可自动接收业务,实现RPO=0、RTO=0结合存储虚拟化层的快照技术,可防止人为误操作导致的数据错误或者丢失,保护数据完整性l 灵活数据访问:两数据中心存储、网络和应用各层级都以双活的方式对外提供服务,业务就近访问,自动负载均衡,为用户提供更加灵活的数据访问方式。
l 高效资源利用:华为存储的虚拟化技术,可统一接收不同厂商、不同品牌的存储设备,充分利用现有存储设备资源,保护客户投资;快照技术,为用户提供可靠性验证、报表统计、业务查询等功能统一管理:华为存储统一管理平台,提供对设备、资源和业务的集中管理,简化灾备业务配置流程,并实现端到端业务监控,实时展现系统状态,如数据状态、复制状态等适用场景基于Oracle Extended RAC分布式集群技术的双活数据中心,其适用场景如下:l 大量的读操作,大量的客户连接,需要较高的系统性能支撑l 数据库响应能力受到硬件的束缚,试图通过Scale-Out来进展性能提升l 小型机虽然能在垂直领域提供较好单个节点的性能,但是价格较高l 人员有限,不想通过水平扩展〔拆库〕来解决单个节点的性能问题〔因为会带来较高的数据库维护本钱〕l 需要防止单点故障,以保证业务连续性技术特点基于Oracle Extended RAC的华为双活数据中心架构,在双中心距离小于100km的情况下,其事务处理能力根本无影响,且双活的特性可以支撑单数据中心故障时,业务无缝自动切换,数据零丢失作为数据平台上实现的双活架构,该方案不依赖于具体的应用,可方便的扩展到所有支持远程集群的应用系统。
4.4 应用层解决方案4.4.1 Weblogic集群技术技术概述WebLogic Server 群集由多个 WebLogic Server 服务器实例组成,这些服务器实例同时运行并一起工作以提高可缩放性和可靠性对于客户端而言,群集是一个WebLogic Server 实例构成群集的服务器实例可以在同一台计算机上运行,也可以位于不同的计算机上可以通过向现有计算机上的群集中添加更多的服务器实例来增加群集的容量,也可以向群集中添加计算机以承载递增的服务器实例群集中的每个服务器实例必须运行同一版本的 WebLogic Server技术特点应用程序故障转移 简单的说,故障转移是当应用程序组件〔在如下局部中通常称作“对象〞〕正在处理某个特定作业时,某些处理任务局部由于任何原因而变得不可用,已失败对象的副本将完毕此作业对于能够接收失败对象的新对象:必须存在可接收作业的已失败对象的副本;必须存在对于其他对象和管理故障转移的程序可用的信息,从而定义所有对象的位置和操作状态,以便在完成其作业之前确定第一个失败的对象;必须存在对于其他对象和管理故障转移的程序可用的信息〔关于正在进展中的作业的进度〕,以便接收中断作业的对象了解在第一个对象失败之前完成的作业量,例如,已更改的数据以与过程中已完成的步骤。
WebLogic Server 使用基于标准的通信技术和工具:多播、IP 套接口、以与 Java 命名和目录接口 (JNDI) 来共享和维护群集中有关对象可用性的信息这些技术允许 WebLogic Server 确定某个对象在完毕其作业之前已停止,以与用于完成已中断作业的对象副本的位置WebLogic Server 支持自动或手动将群集服务器实例从一台计算机迁移到另一台计算机可迁移的受管服务器被称作“可迁移服务器〞本功能适用于要求高可用性的环境确保“单元集服务〞的不中断可用性 当承载服务器实例失败时,在任何给定的时间,单元集服务必须仅在单个服务器实例上运行,例如 JMS 和 JTA 事务恢复系统为自动迁移配置的受管服务器在失败时将被自动迁移到另一台计算机简化重新定位受管服务器的过程以与其承载的所有服务是规划系统管理进程的一局部管理员可以从管理控制台或命令行中启动受管服务器的迁移服务器迁移过程会将整个受。