今天AWS北京区域挂了近12个小时,您的业务做热备了么?

文 | 沉默恶魔(转载请注明出处)
微信号:chenmoemo
关注公众号:AWS爱好者

在北京时间,2019年6月2日2:00AM到 13:48 PM之间,在CN-NORTH-1(中国北京区域)区域有多处光纤在昨晚的道路作业中被挖断,导致该区域的第一个可用区中EC2实例不能访问同时不能在整个CN-NORTH-1区域中新建EC2实例。

这是AWS中国区域的重大事故,也是在提醒我们,掌握主动,学好灾备知识,尽早对业务做好灾备计划是非常重要的;没有一个云提供商能保证永远不出问题,灾难发生时,合理运用DR计划,在第一时间恢复业务,将灾难对于业务造成的影响降到最低是我们的目标。

前面我们介绍了关于Disaster Recovery (DR)的内容包括:

1 Disaster Recovery (DR) 灾难恢复的定义和内容概述
2 恢复时间目标(RTO) 和 恢复点目标(RPO)
3 与灾难恢复(DR)相关的AWS功能和服务-1
4 与灾难恢复(DR)相关的AWS功能和服务-2
5 与灾难恢复(DR)相关的AWS功能和服务-3
6 AWS灾难恢复方案示例-(1)备份和恢复
7 AWS灾难恢复方案示例-(2)在AWS使用Pilot Light快速恢复

今天我们继续Disaster Recovery (DR)的内容,开始介绍四种DR策略的第三种策略–AWS热备策略。

–策略3、AWS热备方案–

热备解决方案是我们前面介绍过的Pilot Light策略的扩展(组件和准备工作)。

术语“热备”用于描述DR策略:创建一套您的业务的完整功能的运行环境的缩小版本始终在云中运行,当灾难发生时快速切换。

由于在热备策略中会创建一套您的业务的服务始终在云中运行,在灾难发生时因此会进一步缩短了恢复时间。

通过识别您的业务核心系统,您可以在AWS上完全复制这些系统并使其始终在云中运行,这些服务器开始可以在最小规模的Amazon EC2实例上以尽可能小的大小运行,它不需要有我们业务正常需要的承载能力,但是要具备全部的功能,比如它可以用于非生产工作,例如测试,质量保证和内部使用。

在DR期间,我们之前创建的最小化环境要能快速扩展以处理生产负载。在AWS中,可以通过向负载均衡器添加更多实例或者调整实例的大小完成快速扩展。

准备阶段

下图显示了热备解决方案的准备阶段,其中传统数据中心环境和AWS环境并行运行。

(使用传统数据中心和AWS只是举例,当然也适用于AWS多区域,多云环境)

准备的关键步骤:

  1. 设置Amazon EC2实例以复制或镜像数据。
  2. 创建和维护AMI。
  3. 使用最少的Amazon EC2实例和AWS基础架构运行应用程序。
  4. 根据您的生产环境修补和更新软件和配置文件。

恢复阶段

在生产环境发生故障的情况下,热备环境将按比例扩大以用于生产负载,并且将更改DNS记录以将所有流量路由到AWS。

恢复的关键步骤:

  1. 增加负载均衡器的Amazon EC2的数量(水平扩展)
  2. 根据业务的需要在较大的Amazon EC2实例类型上启动应用程序(垂直扩展)。
  3. 手动更改DNS记录,或使用Amazon Route 53自动运行状况检查,以便将所有流量路由到AWS环境。
  4. 考虑使用Auto Scaling来调整大小或适应增加的负载。
  5. 添加弹性或扩展数据库。

以上AWS灾难恢复方案示例-(3)AWS热备策略的内容就结束了,我们下次再见!

(待续)

0 responses on "今天AWS北京区域挂了近12个小时,您的业务做热备了么?"

Leave a Message

error: Content is protected !!