亚马逊云科技中东区域服务中断,阿联酋、巴林受影响
有报道称,亚马逊云科技(AWS)阿联酋区域的一个可用区因遭不明物体撞击产生火花并引发火灾,当地应急人员因此切断了该数据中心部分区域的供电,导致亚马逊云科技中东区域出现服务中断问题。此外,其巴林区域的一个可用区还同时曝出网络连接与供电故障,令仅在单一区域部署业务负载的客户受到更大范围的业务干扰。
亚马逊云科技中东区域服务中断事件始末
亚马逊云科技的公共服务更新公告显示,事故发生后,阿联酋区域的一个可用区已暂停服务,该区域其他可用区则仍在正常运行。公司表示,服务恢复可能需要 “数小时”,并建议客户在架构支持的情况下,将业务故障转移至其他可用区或其他区域。此次故障影响了亚马逊云科技的多项服务,这也是单一可用区遭遇供电和网络中断时的典型情况。
路透社指出,此次事件发生当天,伊朗正对海湾地区多国发动导弹和无人机打击,伊朗方面称这是对美国和以色列早前军事打击的报复。亚马逊云科技尚未公开证实引发事故的 “不明物体” 来源,在路透社的采访中,该公司也拒绝说明此次事件与伊朗的军事打击是否存在直接关联。尽管如此,此次亚马逊云科技中东区域的服务中断仍表明,冲突周边地区的云服务风险不仅来自网络攻击和硬件组件故障,还涉及物理区域受袭、空域受扰、应急处置决策以及当地突发停电等现实因素。
此次事件对云服务容灾规划的启示
对于为满足延迟要求或数据本地留存规定,而将业务部署在阿联酋和巴林区域的企业而言,此次事件带来的最朴实教训是:若应用程序并非按照多可用区架构设计,那么单个可用区的故障就会演变成全面的服务中断。当故障具有突发性且由外部因素引发时,跨可用区的数据复制、经过实际测试的故障转移机制,以及明确的系统 “降级运行模式”,其重要性愈发凸显。正如《欧洲电子新闻》此前在报道某数据中心火灾暴露基础设施脆弱性时所指出的,供电类突发事故的影响会迅速从数据中心传导至整个供应链,进而波及客户的日常运营。
从实际运营角度来看,这类服务中断事件恰恰能验证(或暴露)企业在云服务部署中的各类预设是否成立:备份是否真正做到独立部署、故障转移能否无需人工干预自动触发、企业所谓的 “区域级” 架构设计,在整个可用区失效时是否真的能维持业务运转。
加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW
或用微信扫描左侧二维码