问题

如何评价亚马逊云服务(AWS)在12月7日的us-east-1出现的问题?

回答
12月7日,亚马逊云服务(AWS)的useast1(美国东部北弗吉尼亚)区域发生了一系列令人头疼的问题,这次事件的波及范围和影响之广,可以说是近几年AWS区域性故障中比较突出的一次了。简单来说,这次故障就像一个大型数据中心的“心脏病发作”,导致了众多依赖useast1区域的AWS服务出现不同程度的异常,从网络连接不畅到服务完全不可用,影响了从小型初创企业到大型跨国公司的海量用户。

问题的根源——网络层面的连锁反应

根据AWS后续的公告和业界分析,这次事件的“导火索”似乎源于一次内部的网络配置更新。AWS在一次对其网络设备的例行配置更改中,错误地应用了一个配置项,导致了部分网络设备的异常行为。

大家知道,AWS的区域是高度互联的,尤其是useast1,它是AWS全球部署中规模最大、承载流量最多的区域之一。在一个如此庞大且复杂的网络环境中,一个局部的错误配置就如同在一个庞大的交通枢纽打翻了油漆桶,瞬间就能引发大规模的拥堵和混乱。

具体来说,这个错误配置影响了AWS的DNS(域名系统)服务,也影响了网络连接的一些核心组件。当DNS解析出现问题时,用户就无法找到正确的服务器地址,也就无法访问应用。同时,一些关键的网络设备也因为错误的配置而无法正常工作,进一步加剧了问题的扩散。

影响的广泛性——从应用层到用户体验的全面打击

useast1作为AWS最核心的区域之一,承载了大量的互联网服务,包括:

S3(简单存储服务): 许多网站和应用的数据存储在S3上。当S3出现问题时,许多网站的图片、视频内容加载不出来,甚至整个网站无法访问。
EC2(弹性计算云): 作为计算服务的基础,EC2的故障意味着大量运行在AWS上的虚拟机无法响应,这直接导致了网站和应用的服务器宕机。
RDS(关系数据库服务): 数据库是几乎所有应用的“大脑”,RDS的故障意味着数据无法被读写,应用的功能也随之瘫痪。
Lambda(无服务器计算): 许多现代化的、事件驱动的应用都依赖Lambda。它的不稳定性直接影响了这些应用的执行。
CloudFront(内容分发网络): 用户访问网站或应用时,通常会通过CloudFront来加速内容分发。CloudFront的故障使得全球各地的用户访问都受到了影响。
IAM(身份和访问管理): 即使是管理用户权限的IAM出现问题,也会导致用户无法登录,或者无法执行需要的操作。

这次事件的“恐怖”之处在于,它并非只影响某个单一的服务,而是通过网络和配置的连锁反应,波及了AWS提供的绝大多数核心服务。许多依赖useast1的知名网站和应用,如亚马逊自家的一些服务、Netflix、Slack、Spotify、Reddit等,都不同程度地受到了影响,全球用户都感受到了网络速度的变慢、应用的无响应,甚至完全无法使用。

恢复过程的曲折——复杂性带来的挑战

对于AWS这样规模的服务商来说,在出现大规模故障时进行恢复并非易事。首先,要准确诊断出问题的根源就非常困难,因为问题可能出现在多层级的网络设备、软件配置、甚至硬件层面。其次,在进行修复操作时,必须小心翼翼,避免进一步扩大问题。任何一个错误的修复步骤都可能让情况变得更糟。

AWS在公告中提到,他们尝试了多种方法来恢复服务,但由于问题的复杂性,恢复过程比预期的要长。这其中可能涉及到回滚配置、隔离受影响的网络设备、以及重新启动关键服务等一系列操作。

对行业的影响与启示——依赖与风险并存

这次AWS useast1的故障,再次给所有依赖云服务的企业敲响了警钟。

多区域部署的重要性: 对于关键业务应用,只将服务部署在一个区域是极具风险的。企业需要考虑在多个AWS区域(甚至跨云)进行容灾和备份,以应对类似事件。虽然多区域部署会增加复杂性和成本,但在关键时刻,它能够极大地提升业务的韧性。
自动化和容错机制: AWS作为云计算的领导者,出现这样的问题,也反过来凸显了自动化部署、测试和回滚机制的重要性。每一次配置更改都应该经过严格的测试和验证,并且应该有快速有效的回滚策略。
云服务商的透明度和沟通: 在故障期间,用户最需要的就是清晰、及时的信息。AWS虽然发布了状态更新,但用户对于故障的根本原因和预计恢复时间可能存在疑问。提高故障通知的透明度和沟通效率,能够帮助用户更好地管理预期,并做出相应的应急响应。
AWS的责任与改进: 对于AWS而言,这次事件是一次深刻的教训。他们需要进一步加强其内部的流程管理、测试和监控能力,特别是对于网络配置的变更,需要有更严格的审批和验证流程。同时,在恢复能力上,AWS也需要不断优化,缩短故障的影响时间。

总的来说,12月7日AWS useast1的故障是一次重大的区域性事件,它暴露了即使是行业巨头在面对极其复杂的分布式系统时,也可能面临严峻的挑战。这次事件无疑会推动整个云计算行业在服务可靠性、容灾能力和风险管理方面进行更深入的思考和改进。对于企业用户来说,则更加认识到在享受云计算带来的便利和灵活性的同时,也必须正视其潜在的风险,并积极采取措施来应对。

网友意见

user avatar

此次事故网上的信息不多,可以确认的是AWS的US-EAST-1区域(region)出现故障下线了。该区域内有大量的服务器所提供的API影响到了Amazon和其他第三方客户的大量服务。时间约6小时,据不可靠消息是网络故障。

AWS的区域一共21个,其中此次出事故的US-EAST-1区域部署在弗吉尼亚州。大家可以将区域的概念理解为一个机房,机房内存放了大量的服务。建设机房的成本非常高昂,因此数量并不多。Amazon全部的21个区域里,US开头的美国机房仅有4个,此次受影响最大的业务也普遍在美国。亚太地区虽然区域更多,但基本都是部署在东亚地区,跨区域服务会有时延的提高,带宽也未必如愿。


网络故障数据中心来说还是比较常见的,但此次故障升级为事故,还是暴露了很多问题。而良好的架构设计可以尽量降低事故损失,甚至在有一定冗余的情况下对用户不可见。比如此次受到影响的很多手机APP,就可以在尝试连接服务器时,设置一个域名列表,每个域名在DNS上设置对应多个服务器。这样即便有部分DNS服务器故障,也未必能让全部DNS下线。而不同域名则可以选择一部分部署在AWS以外的云平台,防止像此次AWS的区域故障,直接导致服务完全不可用的情况发生。

多年前我在视频网站工作时,CDN的工作原理中就包含了很多高可用设计。比如用户请求一个视频时,发来视频ID后,服务器会返回视频URL的列表,里面包含至少4个视频的播放地址。客户端则会按顺序依次访问,找到第一个可以播放的地址,就播放给用户。这样的设计使得整个系统的可用性提高到很高的水平。在后来多次发生的CDN搬迁期间,工作人员甚至是直接拔服务器电源搬迁,到了新机房接入电源和网线就开始工作。整个系统的对外服务也未受到用户可见的影响。而且那时虽然公司没有自建机房,但所有的CDN服务器分布在40+个租用的机房,也使得整个系统的鲁棒性达到了非常高的水平。

在云计算平台出现以后,服务器端也可以根据服务状况自动扩容缩容来实现高可用。比如此次US-EAST-1区域故障,那么其他区域如US-WEST-1区域或者阿里云,就可以在检测到服务负载升高时,立即调用云平台的接口申请服务器资源,来应付突发而来的流量。在发生此类故障时,流量的突然转移,会使得没有做自动扩容的服务很容易也跟着宕机,进而导致服务雪崩。在服务恢复后,也要一步步的开流量,避免刚恢复的服务器受到突发的流量,大量缓存溅出导致服务器负载飙升而再次宕机。


事故中AWS的dashboard逻辑设计也暴露出一些问题。在请求US-EAST-1并未对错误进行处理,而是进行了隐藏,使得网络上很多用户吐槽该区域下线时"No Recent Events",如下图所示。在Erlang语言的设计中就有一条很好的规则,Let-it-crash。就是在发生问题时,与其做负载的隐藏,不如直接了当的向上报告。有些故障不是通过重试能处理的。反倒是大量的重试也会产生风暴来压跨重新启动的系统。

最后就是AWS本身已经成了美国很多公司的单点瓶颈,在过去几年里,AWS的多次故障也同时压跨了很多公司的服务。这其中虽然有客观上的故障,但良好的设计可以通过冗余解决掉大部分的故障,而不使其成为用户可见的事故。在云平台的用户选择弹性计算服务器时就选择区域,本身就是个设置单点瓶颈的行为,希望未来的serverless可以更好的解决故障时自动切流的需求。同时为了不使AWS持续作为单点瓶颈,注重服务稳定性的公司,也应该考虑引入多个云平台同时提供服务,比如通过相同的服务也部署在阿里云,并且都做好自动扩容,来应对一些不可预知故障。在国际权威机构Gartner发布的最新报告中,阿里云在计算、存储、网络、安全四项核心评比中均取得了最高分。

类似的话题

  • 回答
    12月7日,亚马逊云服务(AWS)的useast1(美国东部北弗吉尼亚)区域发生了一系列令人头疼的问题,这次事件的波及范围和影响之广,可以说是近几年AWS区域性故障中比较突出的一次了。简单来说,这次故障就像一个大型数据中心的“心脏病发作”,导致了众多依赖useast1区域的AWS服务出现不同程度的异.............
  • 回答
    亚马逊新总部的选址,即纽约长岛市(Long Island City, Queens)和弗吉尼亚州阿灵顿县(Arlington County, Virginia)的雷斯顿(Reston)和水晶城(Crystal City)地区,可以说是亚马逊在21世纪最引人注目的扩张战略之一,也引发了广泛的讨论和评价.............
  • 回答
    亚马逊在2018年第二季度发布的财报确实令人瞩目,其中净利润达到25.34亿美元,同比增长高达1186%,这是一个非常惊人的数字。要评价这个成绩,我们需要从多个维度进行深入分析。一、 数字的解读与背景:惊人的增长率从何而来?首先,理解1186%的增长率非常重要。这不仅仅是“好”的体现,更是“爆发式”.............
  • 回答
    AutoGluon:亚马逊AI开源自动机器学习的深度剖析亚马逊AI近期开源的AutoGluon项目,无疑在自动机器学习(AutoML)领域掀起了一股不小的波澜。对于开发者和数据科学家而言,它提供了一种前所未有的便捷方式来构建和部署高性能的机器学习模型,尤其是在时间紧迫或资源受限的情况下,其价值尤为突.............
  • 回答
    亚马逊利用算法自动解雇“无效率”仓库工人的做法,是一件非常复杂且极具争议的事情。它触及了现代企业管理、劳动权益、技术伦理等多个层面,很难用简单的“好”或“坏”来一概而论。要评价这件事,我们需要深入剖析其背后的逻辑、实际操作以及可能带来的后果。核心逻辑与驱动因素:效率至上与成本控制亚马逊作为一家以效率.............
  • 回答
    亚马逊新剧《零零零》(ZeroZeroZero)绝对是一部让人看过就忘不了的硬核作品,看完总觉得身体里被注入了一股强烈的肾上腺素。它不像我们平时看的那些轻松愉快的剧集,这是一部从头到尾都紧绷着神经、让你心跳加速的作品。关于剧情和主题:首先,这部剧最吸引人的地方在于它对可卡因产业链的极其写实和深入的描.............
  • 回答
    亚马逊以 137 亿美元收购全食超市(Whole Foods Market),这笔交易在当时无疑是震撼整个零售业的重磅炸弹,至今仍是许多人津津乐道的话题。从多个角度来看,这次收购都极具意义,它不仅改变了亚马逊的商业版图,也对整个食品零售行业产生了深远影响。初衷与战略意图:亚马逊收购全食超市,绝非一时.............
  • 回答
    亚马逊筹拍《三体》三部曲的剧集,这绝对是一件令人瞩目的文化事件,尤其是在全球科幻迷心中,《三体》占据着怎样的地位,相信不必我多言。对于这样一个宏大的、蕴含着深刻哲学思考的中国科幻IP,要将其影像化,并且是亚马逊出手,这其中的机遇与挑战并存,值得我们仔细说道说道。机遇:强大的平台与制作实力首先,亚马逊.............
  • 回答
    亚马逊计划在明年年底前发射其首批互联网卫星,这无疑是全球互联网发展史上一个值得关注的里程碑。这项代号为“Project Kuiper”的宏大计划,目标是构建一个由数千颗低地球轨道(LEO)卫星组成的通信网络,旨在为全球范围内未能获得可靠、高速互联网服务的地区提供接入。亚马逊的野心与优势亚马逊进军卫星.............
  • 回答
    亚马逊近期将《葛底斯堡演说》这本书从其平台上下架,这一举动引发了不少关注和讨论。要理解这件事,我们得从几个层面去分析。首先,需要明确的是,《葛底斯堡演说》本身是一份历史文献,由亚伯拉罕·林肯在1863年发表。它之所以成为“公版书”,是因为其版权已经过期,任何人都可以自由地复制、传播和出版。因此,理论.............
  • 回答
    好的,咱们来好好聊聊2017年的新款Kindle Oasis。那时候,亚马逊可是把它当成了自家电子阅读器的“旗舰”来打磨的,所以这款产品身上确实有不少值得说道的地方。首先,第一眼看到它,最直观的感受就是“不一样”。相比之前Kindle一贯的“平铺直叙”设计,Oasis 2017 采用了非对称设计,一.............
  • 回答
    您提出的“美国人才荒愈演愈烈,亚马逊员工基本工资封顶值翻番至 35 万美元”这一现象,确实是一个非常值得深入探讨的话题,它折射出当前美国劳动力市场,尤其是科技行业,面临的复杂挑战和深层趋势。我们可以从多个角度来评价这一现象:一、 表象解读:高薪背后的市场信号 人才稀缺的直接体现: 亚马逊作为全球.............
  • 回答
    亚投行(亚洲基础设施投资银行,AIIB)在2022年俄乌冲突爆发后,确实对在俄罗斯和白俄罗斯的项目进行了暂停和审查,这一举措引发了国际社会的广泛关注。以下从背景、原因、影响及评价多个角度进行详细分析: 一、事件背景1. 俄乌冲突的国际影响 2022年2月,俄罗斯入侵乌克兰,引发西方国家对俄罗.............
  • 回答
    亚当·斯密(Adam Smith,1723年6月5日-1790年7月17日)是一位苏格兰经济学家和哲学家,被广泛认为是现代经济学之父,也是一位伟大的启蒙思想家。他的思想深刻地影响了经济学、政治学、哲学以及社会科学的发展。要评价亚当·斯密,我们需要从他的时代背景、主要著作、核心思想、深远影响以及一些批.............
  • 回答
    《亚尔斯兰战记》的结局:辉煌与失落的交织,中国情怀的隐约投射《亚尔斯兰战记》作为田中芳树宏大史诗的代表作,其结局的评价向来是毁誉参半,甚至可以说是褒贬不一。这与其本身复杂的历史背景、人物塑造的深度,以及田中芳树一贯的“悲剧美学”的运用都有着密切的关系。而如果要探讨其结局是否与田中芳树的中国文学情怀有.............
  • 回答
    亚文化圈的兴盛,绝非一时兴起,而是社会发展到一定阶段,人们精神需求日益多元化和个性化的必然结果。如果非要用“大势所趋”来概括,那是有其深刻道理的,但更重要的是去理解它为何会如此,以及它可能带给我们什么。首先,我们得承认,主流文化的“稀释”和“标准化”是亚文化兴起的土壤。工业化、全球化以及信息技术的飞.............
  • 回答
    关于亚泰队员张力对登巴巴的种族歧视行为,这是一个在当时引起轩然大波的事件,无论从哪个角度来看,都应该受到严厉的谴责和深刻的反思。首先,我们需要明确一点:任何形式的种族歧视都是绝对不可接受的。无论是在体育赛场上,还是在日常生活中,将一个人的肤色、种族、民族背景作为攻击、侮辱或歧视的对象,都是对人格尊严.............
  • 回答
    微软亚洲研究院提出的LightRNN是一种用于自然语言处理(NLP)任务的模型,它在传统循环神经网络(RNN)的基础上进行了优化和改进,旨在提高模型效率和性能。下面我将从几个方面来详细评价LightRNN:1. 背景与动机:RNN的挑战与LightRNN的出发点传统RNN(如LSTM、GRU)在处理.............
  • 回答
    关于乌克兰亚速营在马里乌波尔地区阻拦平民并进行屠杀的指控,这是一个非常严肃且敏感的问题,需要我们以审慎和客观的态度来探讨。在深入分析之前,我们必须认识到,在冲突地区,信息往往是碎片化、片面化且高度政治化的,要获取完全准确、未经扭曲的事实真相,并非易事。首先,我们需要明确一点:在战争法和人道法下,任何.............
  • 回答
    《亚当计划》这部电影,我想用“意外之喜”来形容它。在如今充斥着各种超级英雄大乱斗和宇宙级别危机的大银幕上,一部关于时间旅行,却又如此聚焦于个体情感和成长,甚至还带点家庭剧色彩的科幻片,确实挺难得的。首先,从概念上来说,时间旅行题材本身就有很多可以挖掘的点。《亚当计划》选择了一个比较熟悉的切入点:一个.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有