问题

如何看待腾讯云硬盘故障,导致创业公司线上生产数据完全丢失一事?

回答
腾讯云硬盘故障致创业公司数据全丢:一场令人警醒的技术信任危机

腾讯云硬盘故障导致创业公司线上生产数据完全丢失的事件,是一场令人痛心疾首的技术事故,更是对整个云计算行业信任基石的严峻挑战。这不仅仅是一家创业公司的悲剧,也为无数依赖云计算生存的中小企业敲响了警钟。要深入理解此事,我们需要从多个层面进行剖析:

一、 事件的严重性:数据丢失的毁灭性打击

首先,我们要明确“线上生产数据完全丢失”意味着什么。对于一家创业公司而言,数据是其核心资产、生命线和未来发展的基石。这可能包括:

核心业务数据: 用户信息、交易记录、产品数据、知识产权、运营日志等。这些数据直接关系到公司的业务运营、客户关系和商业模式。
历史积累: 经过长时间的努力和积累,这些数据是公司成长的见证和未来的决策依据。
用户信任: 数据丢失意味着公司无法为用户提供服务,无法兑现承诺,直接导致用户信任崩塌,口碑受损。
法律合规风险: 部分行业有严格的数据存储和备份要求,数据丢失可能导致违规甚至法律诉讼。
生存危机: 对于大多数现金流紧张的创业公司来说,一次如此严重的数据丢失几乎是致命的,可能导致业务停滞、资金链断裂,最终走向倒闭。

“完全丢失”更是将打击的烈度推向了极致,意味着没有任何恢复的可能,如同从头开始,甚至连起点的基础都不复存在。

二、 事故发生的原因探究(基于公开信息和一般性云计算故障分析):

虽然腾讯云官方尚未公布详细的事故报告,但我们可以基于行业惯例和可能的技术原因进行推测:

1. 硬件故障的连锁反应:
单点故障的扩散: 云计算依赖于大量的服务器、存储设备和网络设备组成。一个存储单元(硬盘)的物理损坏是可能的。然而,现代云计算设计理论上会通过冗余来避免单点故障。
RAID 阵列失效或配置错误: 存储系统通常采用 RAID(独立冗余磁盘阵列)技术来提供数据冗余和性能。如果 RAID 阵列中的多个硬盘同时发生故障,或者 RAID 控制器本身出现问题,且备用硬盘未能及时接管或数据同步出现严重错误,就可能导致数据损坏或丢失。
存储系统软件 bug: 即使硬件完好,底层存储系统的软件也可能存在 bug,导致数据写入错误、数据块损坏或文件系统逻辑混乱,最终使得数据无法读取。

2. 数据备份和容灾机制的失效:
备份数据丢失或损坏: 云服务商通常会提供数据备份和容灾服务。在这种情况下,备份数据的完整性、可用性或同步机制可能也出现了问题。例如:
备份策略不当:没有实现多副本备份或跨地域备份。
备份过程故障:备份任务未成功执行,或执行过程中出现错误但未被及时发现。
备份存储介质故障:备份数据所在的存储也发生了故障。
容灾切换失败: 如果是主动/被动或主动/主动的容灾架构,在主存储故障时,备用存储未能成功接管服务或数据同步不完整,就会导致服务中断和数据丢失。

3. 人为操作失误:
配置错误: 在维护、升级或部署过程中,管理员可能因为误操作导致存储配置错误,例如错误地删除或格式化了数据。
安全漏洞或攻击: 虽然概率相对较低,但也不排除因安全漏洞导致未经授权的访问,进而破坏了数据。

4. 系统设计或管理上的疏漏:
缺乏足够的监控和告警: 可能未能及时发现早期故障迹象,导致问题累积到不可挽回的地步。
恢复流程不完善: 在故障发生后,可能没有清晰、高效且经过充分演练的恢复流程。
供应商管理问题: 如果底层硬件或软件由第三方提供,供应商的问题也可能传递到腾讯云的客户身上。

三、 对云计算信任的冲击和用户的反思:

此次事件无疑是对云计算信任模式的一次重创。用户选择云服务商,除了成本效益,更重要的是其宣称的可靠性、安全性和高可用性。

1. “不可能三角”的挑战: 云计算在成本、安全性和可用性之间往往需要进行权衡。用户可能认为支付了足够的费用,就能获得最高级别的保障,但事实并非如此简单。
2. 透明度和沟通的缺失: 用户期望在发生故障时,云服务商能够提供及时、透明、详细的沟通。事故发生后的信息披露速度和内容,直接影响用户对服务商的信任感。
3. “自建IDC”的争论再起: 这种严重的事故可能会让一些企业重新审视自建数据中心的可行性。虽然自建IDC的维护成本和技术门槛很高,但至少在数据安全方面,企业可能感觉自己拥有更多的掌控权(尽管实际情况也很复杂)。
4. 用户对备份和容灾的重新审视:
不应将所有希望寄托于云服务商: 即使是顶级云服务商,也存在发生故障的可能。企业用户必须建立自己的数据备份和恢复策略,不能完全依赖云服务商提供的基础服务。
理解服务等级协议(SLA): 用户需要清楚了解所购买服务的产品SLA,以及在发生故障时,服务商的责任和赔偿机制。通常情况下,SLA中会明确对数据丢失的责任限制。
多云或混合云策略: 一些对数据容灾要求极高的企业,可能会考虑采用多云策略,将关键数据分散存储在不同服务商的云上,以降低单一服务商故障带来的风险。

四、 腾讯云的责任与应对:

对于腾讯云而言,这次事件是一次深刻的教训。

1. 技术层面: 需要全面排查事故原因,加强存储系统的冗余设计、故障检测和自动恢复能力,优化备份和容灾机制的可靠性。
2. 管理层面: 完善内部的运维流程、应急响应机制和事后复盘体系,确保信息畅通,操作规范。
3. 客户沟通层面: 在事故发生后,应以最快的速度、最坦诚的态度与受影响客户沟通,解释情况,提供力所能及的帮助(例如技术支持、迁移指导等),并对由此造成的损失承担相应的责任。
4. 责任认定与赔偿: 根据SLA协议,对客户进行合理的赔偿。但这往往难以弥补数据丢失的实际损失,更多的是对客户的安抚和对失去信任的挽回。
5. 行业示范作用: 腾讯云作为国内领先的云服务商,其处理方式将对整个行业产生示范效应。诚实、负责任的态度是重建信任的关键。

五、 对创业公司和中小企业的建议:

对于广大创业公司和中小企业用户来说,这次事件敲响了警钟:

1. 不要盲目迷信云: 云计算是工具,不是万能的魔法棒。理解其风险,并采取配套的风险管理措施。
2. 做好自己的数据备份: 即使使用云服务,也要建立独立的、周期性的数据备份机制。可以将备份数据存储在不同的存储介质或不同的云服务商那里,实现物理或逻辑上的隔离。
3. 理解并评估SLA: 在选择云服务时,仔细阅读SLA条款,了解其覆盖范围、责任限制以及在故障发生时的响应和赔偿机制。对于关键业务,可能需要购买更高级别的SLA服务。
4. 进行灾难恢复演练: 定期进行灾难恢复演练,测试自己的备份和恢复流程是否有效,以确保在真正发生灾难时能够快速响应。
5. 考虑多云或混合云: 对于核心业务和关键数据,可以考虑将服务分散到不同的云平台,或采用混合云策略,以提高整体的可用性和容灾能力。
6. 选择信誉良好的服务商: 除了技术实力,服务商的品牌信誉、过往事故记录以及客户服务水平也是重要的考量因素。

结论:

腾讯云硬盘故障导致创业公司数据全丢的事件,是一次深刻的教训,揭示了即使是最先进的技术也存在潜在的风险。它提醒我们,在享受云计算带来的便利和效率的同时,绝不能忽视数据安全和容灾的重要性。对于云服务商而言,这是对技术能力、管理水平和客户责任感的终极考验;对于用户而言,则是对风险认知和自我保护意识的一次洗礼。唯有双方共同努力,才能在数字时代行稳致远。

网友意见

user avatar

如果你记忆力够好的话,可能还会想起六七年前国内云计算刚起步时,各家大厂都追这股热潮,纷纷上云,技术行不行都硬往上凑。结果第一个出事的是盛大云,同样是硬盘损坏,客户数据丢失,号称的多重备份完全失效,知情者曝出那根本就不算云,而是简单的单块硬盘虚拟机,出这种事只是时间问题而已。

后来盛大云当场去世,其他各家草台班子的小云计算公司也纷纷凉了,大家才明白云这玩意门槛其实挺高的。国内慢慢形成了阿里云一家独大,其余几家后面追赶的市场格局。腾讯云虽然一直号称自己第二,但这个第二跟国际市场AWS第一、Azure第二的地位可完全不同,差远了。

这件事对腾讯云来说,赔10万还是1000万尚在其次,主要是对它自身信誉的损害远不止1000万。毕竟全国互联网公司都知道它家号称99.999999%可靠的云硬盘也会出现永久损坏不可恢复的情况了。


我自己倒也有类似的经历。

前公司用的是阿里云,一共三十几台服务器吧,分成开发和生产两个子网。某天早上开始工作时忽然发现一台测试服务器无法连接,请求无反应,SSH超时,连阿里云控制台控制开关机都没反应。

当时连忙提了紧急工单,同时从这台服务器前一天夜里的快照中创建了一台临时服务器,修改内网路由和应用配置使得其他功能暂时调用这台临时服务器。等开发人员能正常工作后,开始和阿里云的技术人员沟通寻找问题所在,折腾了几个小时,终于确认是硬盘损坏,原始服务器已经无法启动。又过了两个多小时,由他们在同一子网下重建了服务器,数据也恢复了。于是等下班之后我再从白天的临时服务器切换回重建的这台,至此全部复原。

坦白说我对阿里云也很不满意,毕竟为一个你们的磁盘错误折腾了自己半天时间,最后赔付的也只有 一些代金券而已。但其一这事发生在测试服务器上,并没有什么数据损失,只是耽误工作;其二则是毕竟人家的数据是可恢复的,并没有完全丢失。

由此可见腾讯云这次的性质之严重,恐怕所有公司在考虑把核心业务放在它家云上时都要好好斟酌一下了。这一斟酌,可能丢失的就是几千万上亿的市场。


顺便多说一句,这家创业公司的运维失职也是造成悲剧的重要原因之一。无论是用云还是传统托管主机还是自建IDC,把重要业务数据扔在单独服务器上而缺少足够的安全措施,出事也是迟早的,只不过恰好这次赶上了小概率的无法恢复的硬盘损坏事件,否则,外部攻击、软件错误、运维操作失误、普通的磁盘逻辑损坏,都随时能把这家公司自称价值千万的数据一锅端。

根据腾讯云的声明,这公司大半年在服务器上花了3500多块钱,大概也就是1~2台普通2核4G服务器的价格,而且数据库也应该是自己安装的而不是购买的云数据库服务,肯定没有多机热备、读写分离等配置(没那么多服务器),甚至可能连自动备份快照都没做(否则至少能恢复短期数据)。

而如此不上心的运维要么是老板图省钱,要么是运维人员自己都没有起码的安全知识……据我了解,这种档次的运维水准在国内初创甚至有一定规模的软件企业中比比皆是。想想也难怪,很多老板连多花点钱雇个靠谱的程序员都肉痛,何况从表面看不出任何成果的运维呢?

user avatar

三个备份一起丢,这可能备份的是快捷方式吧...

user avatar

2018年8月8日更新:疼逊云官方给出了故障过程复盘。跟我猜的几乎一模一样。不是丢,而是疼讯云手动误删了所有备份!

关于客户“前沿数控”数据完整性受损的技术复盘

先是因为使用率过高报警不得不开始进行迁移。(错误1,1折超卖过于严重)

然后迁移时为了加速手动关了文件校检(错误2,直接导致新硬盘根本没有成功写入)

迁移走完后,没做完整性校检,直接手动发出指令删了旧仓库里的内容。(错误3,主动删除指令导致原来三份备份全灭


=============

2016~2017年我们用了一年的全价疼逊云,现在已经全部撤出换Amazon和linode了。

疼逊云出这种问题完全不奇怪,我去年已有类似回答。当时还有疼逊云的工程师在评论下面疯狂洗地。见:


疼逊云总是坏的根本原因在于宣传和运营思路完全错位。

疼逊云宣发上把自己定为和阿里云甚至aws一教高下的高端云服务,但实际运营上却反复在搞所谓“采购节”一折购机活动冲击占领低端市场。

这种运营方式在阿里云已占大部分市场份额时就进入了恶性循环,导致平台上的底端垃圾需求越来越多。

而且最神奇也是最恶心的地方在于,疼逊云完全不做sla等级隔离。反而是以牺牲全价用户权益的方式偷资源给一折甚至0.5折用户使用

正常品牌做低端低价,必然是隔离出一部分不保证9999,甚至连99%可用性都没有的资源来做超低价推广。然而疼逊云却完全反其道而行。


这次云硬盘“故障”(7月20日),又是之前推出所谓学生参团的活动机器(7月5日参团申请截至),而且实际申请根本不需要验证学生身份。有大量黑产在刷这些机器。这要是不出问题反而奇怪了。

很明显疼逊云在面对大量新机器系统盘(弹性云硬盘,即SSD集群)创建压力时。没有加SSD硬盘,而是选择从全款正常用户的容量部分进行划拨。多半是划拨时操作失误删除了这家倒霉公司的全部数据,而不是什么硬盘损坏或者系统问题。由于用的是SSD,指令删除所有副本后根本不可能恢复。

事后一口咬定是bug。赔你蛐蛐13万,还抹黑这家公司狮子大开口。

面对这么一家垄断托拉斯企业,反垄断法又不作为。小企业毫无办法。

=====================

什么是超卖?:

简单说打个比方,我的服务器只有8个CPU核心。卖云服务的时候,宣称1人分配一个物理CPU核心的计算能力。

不超卖的话,我只能卖给8个人。

但是很明显,没有谁发神经病服务器一直24小时满载运行。因此服务器整体来看,计算能力总是没有100%跑满。

聪明(鸡贼)的厂商就会把8个CPU核心的服务器卖给10个人。多的这两个人的需求,平常没有全部满负载运行时也看不出来。但遇到一些特殊时段,比如淘宝搞光棍节活动,而10个买服务器的人又正好都是电商。就有可能在光棍节当天全部人都满负载在运行。这时候大家就会发现虽然承诺了1个CPU核心的算力,但实际上高峰期只有80%的水平。

这种超卖,量很克制,又精心分配好用户的话能够尽量避免大家冲突。典型是aws客户遍及全球,它就能把不同国家,不同时区的用户平均分配到服务器上。尽可能让服务器24小时都有人在用,并且不互相冲突,不把整个服务器的资源全部跑满。


垃圾厂商就完全不管这套了,比如8个CPU核心卖给20多个人,这20多个人还几乎全部都是东八区的黑产用户。这么搞平常就开始卡,一遇到“黑产活动”整个服务器满负载所有人都用不了。


“云硬盘”“云内存”“云带宽”同理,都能一份掰成八瓣卖

user avatar

又被霸王条款坑了,99%的用户都忽略的细节!

是时候谈一谈互联网公司利用“霸王条款”制定“格式合同”欺负用户的事情了。

为了弄清楚腾讯面对受害公司提出的1100万索赔,为何竟敢开出13万“赔偿+补偿”的回应方案,这打了一折,再打一折,折上折后仅有1%的赔偿对价的赔偿底气到底在哪?我点开了《腾讯云服务协议》

众所周知,你要想成功注册,这个小勾勾你必须要打上才能进行下一步,如果用户对《腾讯云服务协议》某一条款有异议,想要在协商的基础上变更一下怎么办?

不好意思,没得商量。当事人面对面谈合同都可以讨价还价,详细探讨一下条款细节,但这互联网上注册个账号,连个协商的链接都没有,同意就打钩,不同意就走人,简单粗暴。

好吧,来都来了,接着我下载了《腾讯云服务协议》的PDF版,让我们看看这份长达49页的协议说了什么

协议采用了小学作文“总—分—但不总”的形式,前两个部分是通用条款,后面是具体某项服务的具体条款。

在法律上,通用条款+具体条款的形式很常见,在通用条款中模糊地规定一些常规条款,泛泛而谈,而在具体条款中则大量堆叠技术术语、罗列理论依据,总之怎么让你头疼看不下去怎么来。
这种模式最大的风险在于——对于合同相对方,他没有时间或者耐性一条条看下去,往往看了通用条款没大问题就签了,而真要发生了纠纷,具体条款可是依然有效的,所以很多合同制定者往往在这里埋下伏笔,为以后一旦走上法庭留有余地。

下面罗列一下通用条款中显失公平,违反法律规定,严重免除一方责任、增加另一方义务的个别条款(不完全统计):

1 条款3.4.1(过错造成对方损失的不能免除赔偿责任)

2 条款5.4(义务的转移需相对方同意而不是通知)

3 条款7.1.3(服务提供方负有安全保障的义务)

这下我奇怪了,以上条款虽然都极不合理,但都不足以支撑腾讯公司面对1100万索赔仅仅开出13万赔偿加补偿的合同依据,直到我找到了

条款7.4“在任何情况下,任何一方均不对相对方任何间接性、偶然性、特殊性的损害和损失,包括但不限于可得利益损失、相对方向第三方支付的费用等承担责任(及时该方已经被告知该等损失的可能性)

读起来比较拗口,翻译一下,如果用户偶然遭受了损失,你的直接损失和间接损失都是不赔的。

举个例子:你在云上放了一段价值很高的数据,你为了开发这段数据花费的人力财力物力100万(直接损失),而三天前你已经同另一家公司签订了转让协议,约定1000万卖给别人(可得利益损失),同时你同这家公司还约定了违约条款,你要是没法出售这段数据,你还要承担300万违约金(相对方向第三方支付的费用),以上1400万损失,腾讯不赔。。。。

那么,怎么破?好破,用这个:

作为格式合同,霸王条款,它是受到法律限制的

所以不用紧张,该赔还是要赔的,呵呵。


喜欢的话来听听我2018年8月30日的live,学更多的法律常识。


喜欢的话点个赞,关注一下,交个律师朋友,免费解答法律问题。

类似的话题

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有