close
当前位置: 物联网在线 > IT技术 > 云计算 >

应对云计算中断的6个步骤

  企业通常希望公共云为许多应用程序类型提供灵活性、快速可扩展性和可靠性,但公共云并不完美。每个主要云计算提供商都经历过内部系统或存储以及外部资源(如网络连接)的中断。业务中断对任何企业来说都是毁灭性的打击,而云计算中断也可能会影响数百个用户的业务。

  所有这些都凸显了公共云计算的普遍现实:用户需要采用灾难恢复计划,就像使用内部部署数据中心一样。制定计划以及在出现云计算中断时采取的措施可以减轻或加剧对企业的影响。人们需要考虑以下六个重要步骤,以平稳度过公共云中断。

  步骤1:制定灾难复原策略

  应对云计算中断的第一步是创建和实施灾难恢复(DR)计划,并在灾难发生之前很长时间就将其部署到位。尽管云计算提供商提供了大量的服务和资源,但是用户需要为每个工作负载创建、部署、配置和监视这些服务和资源。

  实际的灾难恢复策略可能会根据工作负载的需求及其对企业的重要性而发生根本性的变化。日常应用程序可能非常适合常规数据备份和虚拟机快照到辅助位置,例如其他提供程序区域、另一个云计算提供程序甚至本地存储资源。

  高级灾难恢复计划可以使用已部署但在另一个区域处于空闲状态的备用实例,并准备在主要实例中断时接管。甚至更全面的灾难恢复策略也可以包括分布式集群,该集群可以在多个云区域或可用性区域中运行重复的工作负载实例。例如,这种策略可以包括使用负载平衡器在多个实例之间分配流量,并在该区域发生云中断时重定向流量。

  这些复制工作的极端变化是多云灾难恢复策略,其中工作负载跨两个或多个云平台(例如AWS和Microsoft Azure或Azure和谷歌云)进行冗余操作,以防止云计算中断的可能性。

  步骤2:沟通并实现云计算透明

  当事情发生变化时,需要了解云中发生了什么。传统上,云计算提供商对服务中断一直不透明,但随着企业将更有价值的工作负载委托给公共云,这种情况正在改变。企业需要更多的云计算透明性,提供商也在改善与用户的通信,提供有关中断性质及其当前状态的更及时的见解。

  例如,AWS公共云提供的服务运行状况仪表板显示了所有服务的当前状态,而微软Azure公共云提供了类似的“Azure状态”页面。灾难恢复决策可以取决于企业对灾难及其严重性的理解,提供商对灾难持续时间的估计——所有这些都可以随着云计算透明度的提高而改善。

  但是不要停留在那里。业务和用户群取决于受影响的工作负载,因此,将中断的详细信息传达给内部用户或客户也同样重要。通知他们停机、停机对工作负载的影响以及为解决停机而采取的步骤。

  步骤3:确定灾难恢复计划的业务价值

  确定需要执行什么来实施灾难恢复计划。有些计划是自动的。例如,重要的工作负载通常通过某种类型的集群来保护,即使节点(或实例)发生故障,集群也应继续运行。但是,针对次要工作负载的灾难恢复策略可能需要人为干预或分散步骤,例如恢复和重新启动快照或切换到备份实例。

  如果需要人为干预,需要考虑恢复过程中涉及的工作和费用,并确定启动恢复的业务价值。询问恢复工作负载是否会比只是等待云计算提供商解决中断所需的时间更长且成本更高。来自云计算提供商的通信将会显著影响这一决定。

  步骤4:实施灾难恢复计划

  在许多情况下,关键任务灾难恢复计划可能是完全自动化的,并且管理人员可能无需采取任何有意的操作。例如,即使一个节点在云计算中断期间变得不可用,跨越AWS云计算可用性区域或Azure云区域的集群也可能继续起作用。

  但是,不太重要的工作负载可能需要采取有计划的行动。采用准备好的脚本、模板或其他资源,以协调适当的灾难恢复响应。当企业决定启动需要人为干预的灾难恢复计划时,管理员必须立即采取行动。这可能包括在云计算中断期间从快照重新启动或将流量重定向到备用实例。

  灾难恢复计划需要定期测试。执行测试演练,以确保适当的过程和资源来推动工作负载恢复。测试还验证相关资源的配置,例如IP地址以及相关的驱动程序和相关性。如果恢复在常规测试中正常运行,则很可能在实际灾难恢复情况下正常运行。

  步骤5:监控灾难复原策略

  无论实施灾难恢复策略所涉及的工作量或自动化程度如何,验证已恢复的工作负载是否正常运行仍然很重要。管理人员应将以灾难恢复状态运行的工作负载的性能与在正常条件下运行的相同工作负载的性能进行比较。

  应用程序监视工具(例如Amazon CloudWatch和Google Stackdriver)着眼于工作负载运行状况。这些工具还收集日志、指标和事件,以中继有关已恢复工作负载的操作数据。此外,他们将在整个云计算中断期间继续监视工作负载的性能和可用性。

  步骤6:云计算中断的事后评估

  云计算中断对企业来说可能会很痛苦,但不会一直持续下去。当云计算提供商解决其中断并恢复正常的工作负载操作时,组织需要对事件进行事后评估,并评估其灾难恢复响应。

  企业还要考虑灾难恢复计划的效果如何,并根据需要调整计划。这可能包括更改分配给应用程序的灾难恢复保护级别,微调用于实施灾难恢复程序的过程或其他可能减轻未来云计算中断影响的更改。


(责任编辑:李白)

用户喜欢...

什么是第二代云计算战略?

如今,云计算的应用有着与托管数据中心基础设施类似的趋势。许多数据中心起初获得单一的基础设施供应商的服务,这削弱了单一解决方案的简单性带来的灵活性。随着数据中心的发展,它...


如何让云计算之旅安全顺畅

企业可以采用云计算通过不断的建设、整合、部署、保护、监控和修复提高运营效率。 企业将业务迁移到云端并不容易,但可以安全有效地完成。企业对于业务速度的需求,需要更快地构建的...


如何选择云计算数据仓库服务 7大云计算数据仓库介绍

云计算数据仓库是一项收集、组织和经常存储供组织用于不同活动(包括数据分析和监视)数据的服务。 在企业使用云计算数据仓库时,物理硬件方面全部由云计算供应商负责。对于只看到大量...


福布斯发布云计算企业100强 Stripe仍居榜首

近日,由福布斯与Bessemer Venture Partners和Salesforce Ventures合作推出的榜单福布斯云计算100强(Forbes Cloud 100)正式发布,并在美国旧金山举行盛大的颁奖典礼。 这是福布斯连续第四年推出该榜单,旨...


云计算产业进入新阶段:从全面上云到充分发挥云效能

再过2天位于杭州西南部的一个云栖小镇将成为云计算行业的焦点。9月25-27日,阿里巴巴一年一度的云栖大会就要在这里举行,上千家企业、数万的云计算从业人士会奔赴这里。 在中国公有云市...


IaaS、PaaS、SaaS和托管设备:了解云计算及其提供的内容

软件即服务(SaaS)有两种形式:真实和虚假,人们需要了解如何进行区分。 迁移到云端已成为近年来IT管理中最流行的短语之一。LogicMonitor公司预测,到2020年,83%的企业工作负载将在云端运行。...


IBM能靠混合云改变云计算的格局吗?

回看过往,经过多年的发展,云计算的市场格局已经基本确定,过去几年中,云计算三巨头AWS、微软和谷歌在数据中心等资本上累计支出已经超过了2000亿美金,而且还在不断增加。在产品形态...


哪三个热门市场正在经历云计算带来的颠覆?

云原生计算如今正在成为业界最大和最具影响力的云计算范例。人们需要对其进行了解。 云原生计算可能是当今企业IT中最重要的趋势。从本质上讲,云原生技术将云计算的优势扩展到整个I...


宿州文化产业搭上云计算发展快车

在人们的印象中,位于皖北的宿州是一个农业大市。可是宿州厚积薄发,短短几年就叫响了云都的品牌,引进了一大批云计算相关的优秀企业,建成了一个又一个云平台,为宿州的发展全新赋...


云安全界限不清 企业怎么办?

云计算为消费级应用服务了10年,为企业级应用也服务了多年,可是很多企业还处于摸不清云计算安全边界的状态,致使一旦发生云安全事件,企业与云服务提供商之间往往相互推诿责任,最终...