数据中心应急方案
数据中心应急方案XXX有限公司XXX——DC V2.0发放编号:xx应急方案XXX数据中心受控状态:■受控□非受控XXX有限公司 发布版本记录目录目录 错误!未定义书签第1章 总则 错误!未定义书签第2章 数据中心应急方案组织体系 错误!未定义书签2.1 网络与信息安全应急协调领导小组职责....错误味定义书签2.2 领导小组办公室组成及成员电话 错误味定义书签2.3 工作职责 错误!未定义书签2.4 各设备应急联系人 错误!未定义书签第3章 信息系统安全应急处理实施细则.….…错误!未定义书签3.1.信息系统故障等级划分 错误味定义书签3.LL 一级故障 错误!未定义书签3.L2. 二级故障 错误!未定义书签3.L3. 三级故障 错误!未定义书签32 网络信息故障处理程序 错误!未定义书签32L 故障的发现 错误!未定义书签3.2.2. 故障的处理 错误!未定义书签323. 故障的记录 错误!未定义书签3.2.4. 故障的升级上报 错误!未定义书签3.2.5. 报告内容 错误!未定义书签326. 应急处理 错误!未定义书签3.2.7. 故障处理后的测试验收 错误味定义书签3.2.8. 故障书面报告 错误!未定义书签。
3.2.9. 故障报告填写及报告 错误!未定义书签第4章 信息系统安全应急处理流程 错误!未定义书签4.1. 信息系统安全应急处理流程图 错误味定义书签4.2. 故障升级分类及升级时限 错误味定义书签4.3. 越级报告 错误!未定义书签第5章 应急响应特点文档及工具 .错误!未定义书签5. L 应急文档的备存 错误!未定义书签5.2. 应急设备及软件备存 错误!未定义书签第6章 应急处理预案 错误!未定义书签6. L 网络中断应急处理 错误!未定义书签6.2. 黑客攻击的应急处理 错误!未定义书签6.2.1. 应急处理 错误!未定义书签6.2.2. 修复处理 错误!未定义书签6.3. 大规模病毒(含恶意软件)攻击的应急处理错误!未定义书签6.4. 数据库系统故障的应急处理 错误!未定义书签6.5. 设备硬件故障的应急处理 错误!未定义书签6.6. XX相关故障应急处理 错误!未定义书签6.7. 对重大故障的应急处理 错误!未定义书签6.8. 请求外部协助支持 错误!未定义书签第7章 后期处理 错误!未定义书签7. L 善后处理 错误!未定义书签7.2. 调查和评估......7.3. 应急方案更新.. 错误!未定义书签。
错误!未定义书签错误.未定义书.签.・.附件:应急响应相关表单第1章总则为保证公司数据中心信息系统安全,防范蓄意攻击、破坏网 络系统及数据安全等紧急突发事件的发生,根据公司《XXX数据 中心应急预案》,结合公司数据中心信息化的特点,特制定本应 急方案^^2章 数据中心应急方案组织体系2.1网络与信息安全应急协调领导小组职责负责领导XXX数据中心网络与信息安全应急工作,确定并直 接领导信息系统安全应急处理工作组审定XXX数据中心信息系 统安全应急预案并组织实施,研究解决数据中心有关网络与信息 系统安全的重大问题领导小组下设处理工作组,其工作职责由 数据中心承担2.2领导小组办公室组成及成员电话姓名职务联系电话组长副组长成员2.3工作职责(1)组长职责负责XXX数据中心网络与信息安全应急方案的启动,对XXX 数据中心网络与信息安全故障全权组织进行应急处理2) 副组长职责协助组长对数据中心网络与信息安全故障进行应急处理,负责 确定合理的技术处理方案、制定应急处理方案组长不在现场或不便履行职责时,行使组长职责3) 应急领导小组其它成员职责配合组长和副组长,实施应急处理工作2.4各设备应急联系人第3章 信息系统安全应急处理实施细则3.1. 信息系统故障等级划分XXX数据中心信息系统故障等级,按照《信息安全技术-信息 系统安全等级保护基本要求》第二级的要求,具体划分为三个等 级,一级故障为重大故障;二级和三级故障为一般性故障。
3. LL 一级故障信息系统发生故障,预计将或已经严重影响公司核心系统业 务,导致相关业务中断1小时以上,并预计24小时以内无法恢 复的,具备以下一个或几个特征,即定义为一级故障1. 公司核心业务系统XXX,XXX和部分XXX业务的广域网和专网 出现线路和设备故障,且中断时间为一个小时以上;2. 公司数据中心核心网络出现故障,造成外网用户不能访问公司服务器;3 .公司数据中心核心业务服务器出现故障,无法及时恢复,导 致业务中断一个小时以上4. 公司数据中心存储出现故障,导致业务中断一个小时以上且数 据无法恢复5. xx核心业务系统出现故障,导致公司业务中断一个小时以上6. 利用技术手段,造成业务数据被修改、假冒、泄漏、窃取的信 息系统安全事件3.1.2. 二级故障信息系统发生故障,预计将或已经严重影响公司核心系统业 务,导致相关业务中断1小时以上,并预计6小时以内能够恢复 的,具备以下一个或几个特征,即定义为二级故障1. 公司部分核心业务系统出现线路故障,导致部分客户无法访 问;2. 公司数据中心核心业务服务器宕机,无法及时恢复,导致业务 中断一个小时以上3. 公司部分部署在xx机房的核心业务系统出现故障,导致公司 业务中断一个小时以上。
4. 病毒或网络攻击造成公司数据中心广域网连接中断或传输效率 明显下降,关键业务系统不能正常提供服务;5. 人为误操作导致公司备份数据丢失6 .利用技术手段,造成业务数据被修改、假冒、泄漏、窃取的 信息系统安全事件7. 12小时以内无法解决的三级故障3.1.3. 三级故障 满足以下条件之一,即定义为三级故障1 .非核心业务出现故障,导致无法访问2 .故障发生后,影响到信息系统的运行效率,速度变慢,但不 影响业务系统访问;3 .故障发生后,可随时应急处理,不会影响的系统全面运行, 可是一种隐患;3.2. 网络信息故障处理程序3.2.1. 故障的发现数据中心中心工作人员在发现故障或接到故障报告后,首先 要判断故障发生的原因,对故障的等级进行初步的判断;其次联 系并协调相关人员解决此次故障;待故障解决后,对此次故障进 行详细的记录3.2.2. 故障的处理1. 发生故障的业务系统主管部门数据中心为故障处理部门,故障处理部门领导负责通知和落实相应岗位人员到达现场,故障 处理部门应首先指定现场指挥人员,指挥人员应先询问了解设备 和配置近期的变更情况,查清故障的影响范围,从而确定故障的 等级和发生故障的可能位置;2. 对于一般性故障按照3.2.4的故障升级上报要求进行上报, 并在处理过程中及时向主管领导通报故障处理情况。
3. 对于重大故障按照3.2.4的故障升级上报要求进行上报,并 在处理过程中及时向主管领导通报故障处理情况3.2.3. 故障的记录在故障处理中,应对其过程进行详细记录,其中包括故障处 理的负责人,检查的内容及结果,对故障的判断及处理办法,以 及故障处理过程中各步骤及执行人员3.2.4. 故障的升级上报根据故障等级和发生的时限,要对故障的情况进行及时的上 报,并对报告人,告知人及时间及内容进行记录重大故障由部 门主管领导负责上报,一般性故障由故障处理人员负责上报故 障升级上报时限如下表所示:升级时限一级故障二级故障三级故障立即数据中心经理相应岗位人员相应岗位人员半小时数据中心部门主管领导数据中心经理1小时公司主管高层数据中心部门主管数据中心经理领导4小时公司主管高层数据中心部门主管领导8小时24小时故障上报升级时限XXX数据中心是负责受理和处理网络和信息安全突发事件的 具体职责部门,在接到突发事件报告后,要按下列工作程序处 理:1. 一级故障的报告程序(1) 发现故障岗位人员根据故障初级判断结果,立即向数 据中心经理汇报;(2) 数据中心经理根据故障初级判断结果,迅速将有关情况报告XXX数据中心网络与信息安全应急领导小组或数据中 心部门主管领导,报告时限不能超过30分钟;(3) 经排查故障无法在1个小时内排除,将该突发事件形 成书面汇报材料呈报给公司主管领导,同时向数据中心部门 主管领导上报情况。
2. 二级故障的报告程序(1) 发现故障岗位人员根据故障初级判断结果,将故障有关情况向数据中心经理汇报,报告时限不能超过30分钟;(2) 数据中心经理根据故障初级判断结果,迅速将有关情况报告XXX数据中心中心网络与信息安全应急领导小组或数 据中心部门主管领导,报告时限不能超过60分钟;(3)经排查故障无法在4个小时内排除,将该突发事件形 成书面汇报材料呈报给公司主管领导3. 三级故障的报告程序(1) 发现故障岗位人员根据故障初级判断结果,将故障有 关情况向数据中心经理汇报,报告时限不能超过1小时;(2) 数据中心经理根据故障初级判断结果,迅速将有关情 况报告XXX数据中心网络与信息安全应急领导小组或数据中 心部门主管领导,报告时限不能超过4小时;(3) 经排查故障无法在8个小时内排除,将该突发事件形 成书面汇报材料呈报给数据中心部门主管领导,做故障升级 处理3.2.5. 报告内容报告内容包括突发事件发生的时间、地点、过程、状况、原 因及影响等3.2.6. 应急处理1 .数据中心根据故障情况立即进行应急处理,防止事件进一 步扩大,同时分析该故障的起因,判断需要的处理时间,并根据 判断结果按故障升级上报程序,逐级上报;2 .根据突发事件的性质、级别,决定启动相关系统技术应急 预案;3 .根据事件级别以及对业务影响程度的评估结果,向网络与 信息安全应急协调领导小组报告,应急领导小组决定是否启动业 务应预案,数据中心配合业务部门开展应急处理工作;4 .应急领导小组授权办公室或责任人经过内外网站、传真等 媒介通报突发事件有关信息;5 .根据故障可能产生的原因尽早联系其它相关部门、线路 运营商、设备供应商请求技术支持,并将联系外协支持的情况记 录在案。
3.2.7. 故障处理后的测试验收故障处理后,故障处理部门要进行自测,然后提交用户进行 确认,当用户对处理结果认同后,故障最终确认解决3.2.8. 故障书面报告对于重大故障和拖延时间较长的一般性故障,在处理过后, 应对故障及处理的全过程进行总结,以文字形式进行报告对于影响较小的一般故障处理,在维护日志中做完整的说明 和记录3.2.9. 故障报告填写及报告故障报告应包括以下几方面的内容:故障处理过程的原始记 录,故障情况描述及故障处理情况说明,报告中要明确说明故障 处理是否准确和及时,有无明显的失误,有无违反规定行为语 言应简明扼要,对情况描述要清楚、有条理故障处理部门负责人将对故障报告进行全面审核,无误后签字 并报数据中心部门主管领导,重大故障报告需报公司主管领导信息系统安全应急处理流程4.1. 信息系统安全应急处理流程图F现场检查、判断形成知识库结束4.2. 故障升级分类及升级时限1、 故障分类详见第3.1章节2、 二级故障发生后,在4小时内没有解决,升为一级故 障三级故障发生后,在8小时内没有解决,升为二级故障4.3. 越级报告故障上报应遵循逐级上报原则,但在与上级联系不上时,可 越级报告。
第5章 应急响应特点文档及工具5.1.应急文档的备存(1) 各类网络设备和服务器、计算机及其附属设备的型号、序列号等;(2) 硬件设备供应商、生产厂商的电话、联系人、技术支持网址;(3) 操作系统、关键业务应用软件开发商或供应商的电话、联系人;(4) 数据中心网络拓朴图;(5) 路由器、防火墙、入侵检测设备的配置文档,服务器登陆用户及原始密码文档;(6)各类软件的技术文档及其它需要保存的文档5.2. 应急设备及软件备存(1) 正版操作系统启动盘、安装盘;(2) 正版防病毒软件(注明安装及升级序列号);(3) 数据库管理系统软件,数据库备份软件及最近完整的 数据备份存储介质;(4) 相关的设备驱动程序(含主板、显卡、网卡等)及更 新到最新的服务器注册表文件;(5) 备用网线,万用表、测网仪、螺丝刀等必要工具;(6) 其它必备的应急工具第6章应急处理预案6.1. 网络中断应急处理1、 故障排查:网络中断后,技术人员要迅速判断故障节点,查 明故障原因;2、 故障排除:① 如属线路故障,应重新安装线路② 如属路由器、交换机等网络设备故障,技术人员立即检修 并调试通畅如路由器、交换机配置文件破坏,技术人员应 迅速按照要求重新配置,调试通畅。
必要时,请有关供货单 位、设备厂商协助调测畅通③ 如需更换设备,应上报公司主管领导,经批准后马上更换 故障设备,尽快恢复系统运行④ 如发现属于外部线路的问题,应与线路运营商联系,敦促 尽快恢复故障线路⑤ 数据中心无法及时修理时,应立即通知相关供应商及维护 人员,在最短时间内安排修理6.2. 黑客攻击的应急处理6.2.1. 应急处理1. 当发现网络上有黑客攻击行为时,应立即向数据中心通报 情况,并由数据中心相关负责人向数据中心主管领导报告;2. 数据中心工作人员应立即赶到现场,将被攻击的服务器或 其它设备从网络中隔离出来,必要时能够采取照片、截图等方式 留存记录,保护现场;3. 如事态较为严重,经向数据中心主管领导请示后,立即向 公安部门报警,配合公安部门展开调查;4. 数据中心相关技术人员做好被攻击或破坏后系统的恢复与 重建工作;5. 数据中心负责组织技术力量追查非法信息来源;6. 数据中心相关工作人员将实施事件处理的过程和结果备案 存档,必要时向数据中心主管领导汇报6.2.2. 修复处理1、 记录系统状况;2、 立即复制系统登录文件、历史文件、日志文件等重要文件;3、 修改防火墙、路由器等网络安全设备的过滤规则;4、 断开被攻主机、关闭不需要的服务;5、 处理可疑的文件和程序;6、 修改不安全的系统帐号及其口令;7、 恢复被修改的软件和数据;8、 安装相应的补丁程序,填补安全漏洞;9、 编写报告,详述事件过程及处理步骤。
6.3. 大规模病毒(含恶意软件)攻击的应急处理1. 当发现局域网网络中有大量服务器被感染上病毒后,服务 器维护人员应立即上报数据中心;2. 数据中心工作人员应立即将该机从网络上隔离开来;3. 数据中心工作人员对该设备的硬盘进行数据备份,并将防 病毒软件的病毒特征库更新至最新版本;4. 数据中心工作人员启用反病毒软件对该机进行杀毒处理, 并对相关服务器进行病毒扫描和清除工作;5. 情况较为严重的,已影响到公司相关系统的数据传输、应 用系统访问不正常等情况,应及时向数据中心主管领导报告,按 照3.1信息系统故障等级划分,确定其故障等级,并启动相应的 应急处理程序进行排除6.4. 数据库系统故障的应急处理1. 数据库系统每日必须存有备份,与软件系统相对应的数据 必须有多日的备份;并将它们保存与安全处;2. 数据库系统发生故障以后,数据中心工作人员立即向数据 库组负责人和数据中心主管领导汇报请示,经同意后采用相关技 术手段尽快恢复数据库运行,保证业务不中断;3. 数据中心工作人员及时组织相关数据库工程师,并同时通 知主要应用部门等技术力量做好数据库系统切换和有关数据的恢 复工作;4. 数据库工程师应检查日志等资料,确定故障原因;5. 数据库部门会同数据中心工作人员将实施处理的过程和结 果进行备案存档,并向有关领导汇报。
6.5. 设备硬件故障的应急处理1. 数据库服务器等关键设备损坏后,数据中心相关人员应立 即向数据中心经理报告;2. 数据中心经理立即组织相关技术人员查明原因,联系维保 单位更换受损部件;3. 如果设备一时不能修复,应向数据中心主管领导汇报,并告知各应用部门暂缓上传上报数据或及时切换应用到其它应用服 务器上,及时恢复业务系统6.6. XX相关故障应急处理1. 数据中心相关工作人员应分析大致故障原因,并立即向数 据中心经理报告;2. 数据中心经理立即组织协调相关人员联系XX相关负责人 查明原因解决此问题;3. 如果XX 一时无法解决,应向数据中心主管领导汇报,并 告知各应用部门暂缓上传上报数据或及时切换应用到其它应用服 务器上,及时恢复业务系统6.7.对重大故障的应急处理当数据中心工作人员经过网络监控到诸如广域链路意外中断、核心路由(交换机)宕机非法入侵及病毒入侵使网络传输 性能下降,应用系统网站、核心数据库等系统关键服务器性能下 降,严重影响正常业务运行的情况时数据中心工作人员应及时 记录故障发生时间、地点等同时立即报知数据中心主管领导 在此过程中数据中心工作人员应检查所发生故障设备和配置近期 的变更情况,查清故障的影响范围,从而确定故障的等级和发生 故障的可能部位,在处理过程中要及时向主管领导通报故障的处 理情况。
6.8. 请求外部协助支持1. 对一时不能查清原因的重大故障,应尽早联系原厂商请求技 术支持2. 对4小时内无法解决的一般性故障,也应联系原厂商请求 技术支持,并要将联系外协支持的情况记录在案第7章后期处理7.1. 善后处理应急处理工作结束后,现场领导小组组织有关人员和技术专家 组成事件调查组,对事件发生原因、性质、影响、后果、责任及 应急处理能力、恢复重建等问题进行全面调查评估,根据应急处 理中暴露出的管理、协调和技术问题,改进和完善预案,实施针 对性演练,总结经验教训,整改存在隐患,组织恢复正常工作秩 序7.2. 调查和评估应急处理工作结束后,应急响应领导小组应立即组织有关人 员,专家组,会同技术中心成立事件调查小组,对事件发生及其 处理过程进行全面的调查,查清事件发生的原因及财产损失状况 并总结经验教训,写出调查评估报告,并将故障处理文档整理, 形成知识库进行统一归档管理7.3.应急方案更新根据信息化快速发展和经济社会发展状况,配合相关法律法 规的制定、修改和完善,结合应急处理中暴露出的管理、协调和 技术问题,修订和完善本预案附件:应急响应相关表单网络与信息安全事件记录表网络与信息安全事件应急预案摘要表一、应急领导小组成员姓名职位联系方式应急角色领导小组组长领导小组副组长应急事件业务处理、协调系统技术支撑、处理和协调对外信息披露、通报一、应急支撑力量(包含系统运营、开发、技术支持专家等)姓名单位联系方式应急角色通讯保障业务问题评估、恢复重建网络保障运维支撑系统技术支撑信息安全员三、软硬件服务维保方序号设备维保方联系人联系电话1安全服务2服务器、存储阵列3核心网络设备4防火墙、路由器、交 换机各业务服务器硬 件维修维护5各业务软件维护6 通信网络故障四、事件与先期处理预判可能事件处理手段简述电力系统故障启动后被电力系统,根据UPS供电能力,保证关键设备用 电。
硬件故障联系设备维保单位,提供备件软件系统故障联系软件系统开发单位,先进性数据备份,排除系统故 障数据库系统故障联系系统实施人员,先进行数据备份,排除系统故障网络故障联系系统集成商,排除网络故障线路故障联系ISP服务提供商,检查线路网站被篡改联系技术人员,米取技术措施阻断对被篡改页面的访问, 保护日志和相关文件,汇报信息安全主管部门,向公安部 门报案计算机病毒、木马联系技术人员,利用专业工具清除病毒和木马,汇报信息 安全主管部门网络攻击事件联系技术人员,米取技术措施恢复系统,保护日志和相关 文件,并加强系统防御措施,汇报信息安全主管部门,向 公安部门报案信息泄露事件联系安全服务部门,米取技术措施防止信息泄露,汇报信 息安全主管部门,向公安部门报案五、业务系统情况信息系统名承载业务业务连续性要 求信息物理位置等级保护 定义XXX系统门户网站、年检系统高一级XXX系统中一级村医系统中一级XXX系统中一级注:1、根据实际情况,参考如下标准判定业务连续性要求中断系统服务不造成社会影响,不影响业务工作正常开展,为低;如简单的内部信息门户网站中断系统服务会造成较低社会影响,业务能够经过其它方式继续展开,为中。
中断系统服务会造成较大社会影响,部门业务难以继续展开,为高。




