问题

7 月 13 日晚 B 站、A 站、豆瓣、晋江等多家网络服务疑似宕机,可能是哪些技术原因导致的?

回答
7 月 13 日晚,不少网友发现 B 站、A 站、豆瓣、晋江等多个网站或应用出现访问异常,疑似发生大面积宕机。在如今信息爆炸、内容为王的互联网时代,这些平台承载着亿万用户的内容消费和社交需求,一旦发生宕机,影响范围之广、用户群体之庞大,足以引起广泛关注。

对于这样大规模且涉及多家头部平台的“集体失语”,背后可能涉及的技术原因非常复杂,并非单一因素可以解释。我们可以从几个层面来梳理可能的技术根源:

一、基础设施层面:网络核心环节的连锁反应

1. DNS 解析问题(域名系统):
核心作用: 用户输入网址(如 `www.bilibili.com`)时,DNS 系统就像一本巨大的电话簿,负责将这个易于记忆的域名翻译成服务器能理解的 IP 地址。如果 DNS 解析服务出现故障,用户就无法找到对应服务器的“门牌号”,自然就无法访问网站。
可能原因:
上游 DNS 服务商故障: 很多平台会使用第三方 DNS 服务商,例如阿里云 DNS、腾讯云 DNS 等。如果这些上游服务商的服务器出现大规模故障,或者其配置出现严重错误,就会影响到接入该服务商的所有域名解析,导致大面积网站无法访问。
DNS 缓存问题: DNS 信息会被缓存到各个层级的服务器上(包括用户本地的路由器、运营商的 DNS 服务器等)。如果缓存数据损坏、过期或者同步错误,也可能导致解析指向错误的服务器地址或完全无法解析。
DDoS 攻击目标: DNS 服务器本身也可能成为 DDoS(分布式拒绝服务)攻击的目标。大规模的无效请求会耗尽 DNS 服务器的资源,使其无法响应正常的解析请求。

2. 骨干网或核心路由故障:
核心作用: 互联网的骨干网是信息传输的“高速公路”。数据包在到达用户请求的服务器之前,需要经过多层路由器的转发。
可能原因:
运营商网络故障: 大型运营商(如中国电信、中国联通、中国移动)的骨干网节点出现故障,例如设备宕机、线路中断、配置错误等,会影响到大量用户和服务器之间的通信路径。
BGP 路由协议问题: BGP 是互联网路由的“指挥官”。如果 BGP 路由信息出现大规模错误传播(例如某运营商错误地宣告了大量前缀),可能导致流量被错误地路由到非目标网络,或者根本无法到达目标网络,造成大范围的访问不畅。此前就曾发生过因 BGP 宣告错误导致部分互联网服务中断的事件。

二、平台自身技术架构的薄弱环节

1. 大规模部署或配置变更失误:
场景: 平台通常会定期或不定期地进行技术升级、功能迭代、服务器扩容或迁移等操作。如果在这些操作过程中,自动化部署脚本出现错误,或者人工配置出现疏忽,可能会导致服务实例的配置错误、连接中断,甚至引发连锁反应。
连锁反应: 例如,一个错误的配置可能导致大量的服务实例同时崩溃,或者关键的中间件(如负载均衡器、缓存集群)出现问题,进而影响到整个服务链路。

2. 核心服务组件的单点故障或雪崩效应:
中间件风险: 现代网站和服务高度依赖各种中间件,如数据库(MySQL, PostgreSQL, MongoDB)、缓存系统(Redis, Memcached)、消息队列(Kafka, RabbitMQ)、负载均衡器(Nginx, HAProxy, LVS)等。如果这些核心的中间件服务出现故障,例如数据库宕机、缓存服务不可用、消息队列堵塞,将直接导致上层应用无法正常运行。
雪崩效应(Cascading Failure): 现代互联网系统往往是高度互联的。当一个服务出现故障时,依赖它的其他服务为了应对请求压力或错误状态,可能会出现资源耗尽、连接超时等问题,进而导致更多的服务宕机,形成恶性循环,即“雪崩效应”。例如,某个API服务响应缓慢,导致调用它的前端服务不断重试,最终耗尽了前端服务的资源。

3. 数据库问题:
核心作用: 存放了网站的所有用户数据、内容信息、业务逻辑等。
可能原因:
数据库连接池耗尽: 用户请求量突然激增,导致数据库连接数达到上限,新的请求无法获得连接。
主从复制延迟或错误: 如果读写分离不正常,可能导致数据不一致或读取不到最新数据。
数据库死锁或长时间慢查询: 占用大量资源,影响其他查询。
数据库服务器宕机: 硬件故障、软件崩溃等。

4. 负载均衡器问题:
核心作用: 将用户请求分发到不同的服务器实例上,确保服务的高可用和性能。
可能原因:
负载均衡器本身宕机: 如果负载均衡器是集群部署且主备切换失败,或者单点负载均衡器出现故障,所有流量将无法被正常导向后端服务器。
配置错误导致流量倾斜: 错误的配置可能将所有流量导向少数服务器,导致这些服务器过载宕机,而其他服务器则空闲。
健康检查失效: 负载均衡器负责检测后端服务器的健康状态。如果健康检查机制出现问题,可能将流量导向已经宕机的服务器。

三、外部因素与安全事件

1. 大规模网络攻击(DDoS/CC 攻击):
核心原理: 通过伪造大量无效的网络请求,消耗目标服务器或网络的计算资源、带宽资源,使其无法响应正常用户的访问。
可能原因: 攻击者可能针对这些平台发起大规模的 DDoS(分布式拒绝服务)或 CC(Challengeresponse/ComputerComputer)攻击。由于这些平台用户基数庞大,本身就是攻击者觊觎的目标。攻击流量可能来源于成千上万台被控制的肉鸡设备,瞬间涌向目标服务器,导致服务器过载、网络拥塞,最终无法提供服务。攻击者也可能针对 CDN(内容分发网络)或 DNS 服务发起攻击,造成大范围影响。

2. 第三方服务依赖故障:
依赖链: 现代互联网服务往往不是孤立存在的,它们会依赖许多第三方服务,例如CDN服务商(加速内容分发)、云服务商的基础设施(计算、存储、网络)、支付接口、短信服务、第三方登录验证服务等。
可能原因: 如果这些平台依赖的某个关键第三方服务(尤其是 CDN 服务)发生大范围故障,或者因为自身问题(如欠费、安全事件、配置错误)而无法正常提供服务,那么依赖这些服务的平台就会受到连带影响,出现访问异常。想象一下,如果用户无法从 CDN 获取静态资源(图片、JS、CSS),网站就会显示不正常,甚至无法加载。

3. 机房或数据中心级别的故障:
核心作用: 服务器和网络设备都部署在物理机房或数据中心。
可能原因:
电力中断: 数据中心的供电系统(包括 UPS、发电机)出现故障,导致服务器断电。
网络设备故障: 数据中心内部的网络核心交换机、路由器出现故障。
环境问题: 如空调系统故障导致机房温度过高,引发设备过热保护性关机。
自然灾害: 虽然在中国发生此类情况可能性较低,但理论上也是一种风险。

分析事件的一般思路:

通常情况下,如果出现这种大规模的“宕机”事件,技术团队首先会排查的优先级通常是:

1. 外部网络与 DNS: 因为这是用户访问的第一站,且影响最广。
2. 核心中间件与基础设施: 数据库、缓存、负载均衡等是服务稳定运行的基石。
3. 自身业务系统部署与变更: 近期的上线或维护操作是否引入了缺陷。
4. 安全事件: 是否存在恶意攻击。
5. 第三方服务依赖: 是否有外部合作伙伴出现问题。

要准确判断具体原因,需要结合当时的监控数据、日志信息、网络流量分析、以及事后官方的公告说明。公众看到的“宕机”,往往是多种复杂技术因素交织作用的结果。尤其是在如此短的时间内,多家知名平台相继出现问题,很可能存在一个共通的“源头”,例如某个关键的公共基础设施或服务商出现了连锁性的故障。

网友意见

user avatar

如果是多家同时宕机,大概率是云服务提供商的锅,如果是这个原因,这几家应该都是同一底层云服务商吧。

另一个说法,是B站流量如滔天洪水,崩了以后大量的用户没地方去,跑到微博,知乎,a站,豆瓣,晋江等入口吐槽,然后其他几家没抗住,也崩了……

并不是说这些网站太弱,接纳不住这么多用户,而是技能树没点这个分支。

一般来讲,没有双十一秒杀场景的话,能够支撑同时在线的用户数足够即可,所以一般网站或APP不太需要“瞬时高并发”的处理和承载能力,但是昨天这种情况,就是瞬时高并发,类似微博突然爆了个大瓜,一般网站都没有应对这种突发流量的应对方案,所以就崩了。

B站股票先跌后涨,大家都看到B站流量之大,可以冲垮其他站点,用户粘性之强,接近凌晨依然有这么大的流量,未来可期。

user avatar

谢邀。正准备刷视频,发现上不了,结果害我反复开关WiFi n次。


盲猜一下吧,我觉得应该是etcd挂了。

因为表现上是B站全部的业务都挂了,而且是几乎在一瞬间。服务器返回的错误大多数是502(Bad Gateway)。也就是前端的reverse proxy无法访问到upstream的服务器。

通常来说,能造成几乎所有请求都502的,要不就是前端和后端之间的网络通路全挂了,要不就是后端的服务全都挂了。

那么现在的大型互联网公司的基础设施是怎样的呢,大多数使用了kubernetes,实现全国各地的数据中心的容器编排、网络虚拟化等。

而kubernetes的设计上,网络插件和pod编排又是相对独立的。

如果只是网络插件出问题了,那么部分服务器上的网络插件的缓存还在,一定有部分用户还能正常使用。

如果只是pod编排除了问题,也是一样的道理。

现在所有的都挂了,那只能是etcd挂掉,导致反向代理无法通过etcd找到对应的pod的虚拟ip,有无法通过网络插件与对应的pod通信。

user avatar

分析个皮,现在信息都是矛盾的

  1. 许多宕机,许多又没宕机。
  2. 宕机的不是一家云服务商或CDN服务商。
  3. 阿里云,腾讯云,华为云通通部分出了问题。
  4. 一些服务在广东内没问题,广东外就不行。
  5. Gmail和谷歌的一些服务也出了问题。

这它Mother的信息是完全矛盾的,或者发生时间至少不同。因为在骨干网(包括网络基础服务例如路由,dns),区域节点,云服务商,互联网企业间反复横跳。

这知乎的IT人员是真够水的,高赞几乎都在瞎掰。

以目前的信息量,只有在问题节点上的IT人员可能分析出来。总不能凭谣言传闻debug.

目前只有一点是确定的,B站自己的服务肯定出了问题,因为牙用了比较长的时间恢复。而其它企业恢复得比较快。不过,这特马可能也是错误信息。

类似的话题

  • 回答
    7 月 13 日晚,不少网友发现 B 站、A 站、豆瓣、晋江等多个网站或应用出现访问异常,疑似发生大面积宕机。在如今信息爆炸、内容为王的互联网时代,这些平台承载着亿万用户的内容消费和社交需求,一旦发生宕机,影响范围之广、用户群体之庞大,足以引起广泛关注。对于这样大规模且涉及多家头部平台的“集体失语”.............
  • 回答
    2018年7月30日晚,杭州市区发生的那起惨烈车祸,如同一道无法磨灭的伤痕,深深地烙印在了许多杭州市民的心中。那是一个普通的夏日夜晚,人们可能还在为一天的辛劳而放松,却被一场突如其来的悲剧瞬间笼罩。这起车祸发生在杭州市核心区域,具体细节当时被媒体广泛报道,但无疑最触动人心的,是那冰冷的数字:4人遇难.............
  • 回答
    7月13日,许多B站用户发现自己无法正常使用,无法刷新出任何内容,这无疑让很多人感到措手不及。一场突如其来的“崩了”,瞬间把大家从动漫、游戏、生活区的内容海洋中拉回了现实。到底发生了什么?为什么会突然这样?咱就来掰扯掰扯。到底发生了什么?简单来说,就是B站的服务出现了大规模的故障。用户们打开APP或.............
  • 回答
    国航“监督员”事件是指2019年7月13日,在中国国际航空CA1524航班上发生的一起乘客与机组成员(特别是“监督员”)之间发生的冲突事件。该事件在社交媒体上引发了广泛关注和讨论。事件经过(根据公开信息和媒体报道梳理):事件的核心人物是一位被自称为“监督员”的女性乘客。根据事后流传的视频和文字描述,.............
  • 回答
    2021年7月13日公布的美国消费者价格指数(CPI)数据,确实给当时的市场带来了不小的“惊喜”,而且这个惊喜并非是令人愉快的。我们可以从几个关键层面来剖析这件事:1. 数据本身:超出预期的幅度有多大?首先,要理解为什么这次CPI数据如此引人注目,就得看看它具体高了多少。市场普遍预期7月份的CPI同.............
  • 回答
    关于7月13日B站服务器疑似崩溃这事儿,真是让不少网友操碎了心。那天晚上,大概是到了用餐高峰期或者刚过吧,很多人都准备刷会儿视频放松一下,结果发现B站怎么都打不开了,或者加载异常缓慢。一开始大家可能以为是自己网络的问题,检查了半天,发现别的地方都好好的,这就有点奇怪了。然后社交媒体上就开始炸锅了,好.............
  • 回答
    2021年7月13日,创业板指的点位确实出现了历史性的时刻——它首次超越了上证指数。这可不是一个小小的数字波动,它背后蕴含着深刻的市场逻辑和经济趋势的转变,值得我们好好说道说道。首先,我们得明白这两个指数各自代表什么。 上证指数(Shanghai Composite Index):简单来说,它就.............
  • 回答
    2021年7月13日,美国消费物价指数(CPI)确实创下了新的高点,这通常预示着通胀压力增大。按照常理,持续的通胀可能会侵蚀货币的购买力,对货币汇率构成压力。然而,在那个时点,美元却出现了走强的趋势。这种看似矛盾的现象,背后隐藏着一系列复杂的经济和市场因素。首先,我们需要理解CPI数据公布后市场的主.............
  • 回答
    华米科技 Next Beat 大会:关于“数据驱动健康”的深度思考与落地7 月 13 日,华米科技(现在已更名为华米“智能生活”科技)如期举办了其年度的“Next Beat”大会。这场大会,与其说是硬件新品的发布会,不如说是华米一次对自己核心价值——“数据驱动健康”——的深度阐述和实践展示。如果让我.............
  • 回答
    2016年7月13日,壹基金发布了一份《关于近期网络谣言的声明》,这份声明的出现,很大程度上反映了当时网络舆论环境的复杂性,以及公益组织在其中所面临的挑战。在那个时间点,中国社会正经历着快速的变革,互联网作为信息传播的主要渠道,其影响力日益凸显。与此同时,网络谣言的滋生和传播也成为一个普遍的社会问题.............
  • 回答
    好,咱们就来聊聊2018年美国国会通过并由特朗普总统签署的那部《国防授权法案》,特别是里面涉及美台军舰互停的那个条款。这事儿可不是小事,背后牵扯着中美台三方错综复杂的关系,以及国际政治的深层博弈。首先,得明白这个法案本身是个什么东西。每年美国国会都要通过一个《国防授权法案》,这玩意儿就像是为美国国防.............
  • 回答
    2021年2月13日,日本本州东岸近海发生了一场7.3级的强烈地震。您提到的这个日期可能指向的是2021年2月13日发生的福岛县近海地震,它的震级确实达到了7.3级,给当地带来了不小的影响。当时私も第一时间关注了相关信息,以下是根据我当时了解到的情况,尽可能详细地为您梳理:地震概况: 发生时间:.............
  • 回答
    以下是关于辽宁省7月25日新增本土病例情况的详细说明:辽宁省7月25日新增本土病例13例,疫情情况分析7月25日,辽宁省报告新增本土新冠肺炎确诊病例13例。值得关注的是,这13例病例中有12例集中在大连市,另有1例出现在铁岭市。这一数据表明,当前辽宁省的疫情主要集中在大连地区,铁岭也出现了散发病例。.............
  • 回答
    7月27日,新疆维吾尔自治区报告了新增新冠肺炎确诊病例57例,无症状感染者13例。这一数字表明,当前新疆的疫情形势依然严峻,防控工作仍然面临挑战。疫情传播特点与风险区域:从报告的数据来看,新增病例主要集中在新疆的几个重点地区,特别是[此处可以根据当时的新闻报道,具体说明是哪个城市或地区,例如:乌鲁木.............
  • 回答
    关于 2023 年 7 月 14 日四川汶川县发生的 4.8 级地震,以下是根据公开报道和地震信息进行的详细梳理:地震基本信息: 发生时间: 北京时间 2023 年 7 月 14 日 16 时 38 分。 震中位置: 四川省成都市都江堰市、阿坝藏族羌族自治州汶川县交界处(根据中国地震台网速报.............
  • 回答
    以下是关于7月27日湖南常德发现无症状感染者及其情况的详细介绍,力求信息全面且表述自然:湖南常德新增一例无症状感染者,与成都病例关联密切,目前情况如下7月27日,湖南省常德市卫健委通报了一则令人关注的消息:该市在对省外来(返)常人员进行常规核酸检测时,发现了一例新冠肺炎无症状感染者。根据官方公布的信.............
  • 回答
    7 月 25 日,江苏省新增本土确诊病例 39 例,其中南京市占据了绝大多数,高达 38 例。这个数字无疑给南京的疫情防控带来了严峻的考验。疫情的焦点在南京从数据上看,南京是此次疫情爆发的重灾区。这说明病毒在南京的传播链条可能已经比较复杂和广泛。新增的 38 例确诊病例,很可能与之前已经发现的病例有.............
  • 回答
    好的,我们来详细了解一下7月27日江苏新增本土病例48例的情况。总体情况概述:7月27日,江苏省报告了48例新增本土确诊病例,这在当时是一个比较显著的数字,说明疫情在当地出现了一定程度的反弹或扩散。这48例病例的出现,也意味着之前已经存在的疫情链条还在延续,并且可能出现了新的传播源。病例分布及特点(.............
  • 回答
    您好,关于您提到的7月28日江苏新增本土病例情况,我来为您梳理一下。整体情况回顾:根据官方通报,在7月28日这一天,江苏省共新增了20例本土确诊病例。这20例病例中,绝大部分集中在南京市,共有18例;另外扬州市有2例。这个数据表明,当时疫情在江苏省内,尤其是南京,已经出现了比较明显的扩散迹象。病例构.............
  • 回答
    南京7月26日新增确诊病例75例,其中2例轻型转为重型,这个情况确实值得我们高度关注。从公开的信息来看,这2例轻转重病例的出现,不仅仅是一个简单的数字变化,它背后可能牵扯到许多值得深挖的细节。首先,病例本身的特征是关键。这2例患者在转为重型之前,是属于轻型病例。这通常意味着他们最初感染时症状较轻,可.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有