东芝把日本政府Teams记录全删了,这件事给所有做运维的人上了一课
技术笔记 1 次阅读

东芝把日本政府Teams记录全删了,这件事给所有做运维的人上了一课

东芝把日本政府Teams记录全删了,这件事给所有做运维的人上了一课

先说事情经过

前两天看到条新闻,东芝把一个政府部门的Teams聊天记录给删没了。

不是普通数据丢失,是日本厚生劳动省——相当于咱们的卫健委——的Microsoft 365环境,2023年1月到2025年10月将近三年的Teams聊天记录、共享文件和个人文件,全没了。而且部分数据已经不可恢复。

说实话,看完这个新闻我后背一凉。这事放哪个运维身上都是噩梦级别的。

怎么发生的

东芝发了个声明,把前因后果交代清楚了。起因是他们承接了厚生劳动省LAN系统的更新项目,在做数据备份和恢复设置的时候配错了参数。

原本只是想改一下"删除文件存储区域"的保留期限,结果一不小心把"员工日常使用文件区域"的数据保留期限也给改了。这一改不要紧,存储系统直接按新规则把数据给清理了。

更离谱的是——东芝自己承认,整个操作过程中没有请专家审核,也没有联系微软(产品供应商)。

为什么?因为他们觉得这只是个"修改数据保留期限"的辅助性作业,小事一桩,没必要上专家。结果测试用的样本数据不充分,问题根本没被发现,直接就上线了。

这就像你说"我就改个小配置",结果直接把生产环境干趴了。每个做过运维的人都懂这种心态——越是觉得"就改一下不会有事",往往越容易出大事。

这件事告诉我们什么

第一条:操作规范和审核流程不能省。

别看这次是东芝这种级别的公司在操作,犯的错误跟我们平时工作中犯的一模一样——觉得活儿小,跳过流程,结果翻车。我认识一个朋友,在一家互联网公司做DBA,有次觉得"就是改个表结构的小事",没走审批直接在线上执行了,结果锁表锁了快一个小时。跟东芝这个比起来,他那个还算运气好的。

有些流程看起来繁琐,但每一条规则都是用踩过的坑换来的。

第二条:你的数据真的安全吗?

这个案例最吓人的地方在于——东芝明明做了备份。但备份的恢复设置出了错,备份本身就成了摆设。现实中很多公司都在"假装有备份":脚本写了,定时任务设了,但从来没人真正验证过恢复流程能不能跑通。

备份不值钱,能恢复的备份才值钱。这个道理谁都知道,但真正去验证的有几个?

第三条:TCO里应该加上一条——人。

企业上云上协作平台的时候,大家算的都是服务器多少钱、软件多少钱,很少有公司仔细算过"专业运维人员"这笔账。Teams这种看起来人畜无害的协作工具,真要管起来,权限、数据保留、合规归档,每一块都是坑。

东芝这次栽就栽在"低估了配置变更的风险"上。数据迁移和系统更新看着简单,其实里面全是细节。一个保留期限的参数没设对,三年数据说没就没了。

我们能做什么

说到底,这种事离我们一点也不远。分享几个我自己在用的保命习惯:

第一,任何线上操作之前,先把变更方案写清楚。写方案的过程本身就是一次检查。

第二,操作前做一次完整的预演,用和生产环境一致的数据量来测。测试样本太小根本试不出问题。

第三,也是最管用的一条——操作的时候找人看着。不是不信任自己,是两个人四只眼睛能看到一个人漏掉的东西。这叫"四眼原则",我靠它避免了至少三次事故。

第四,定期验证备份的可恢复性。不是看一眼备份文件还在不在,而是真的跑一次恢复流程。你能忍受花多长时间恢复数据,就多久验证一次。

最后说两句

东芝这个事出来之后,估计不少公司的IT部门都回去检查自己的配置了。但说真的,别看了就忘。

这行干久了你会发现,大多数事故都不是技术问题,而是人的问题——大意了、简化了、侥幸了。

上次我在公司内部做分享的时候说过一句话,现在想想还挺应景的:运维这行,不出事的时候你觉得流程太多,出事的时候你后悔流程太少。希望大家都别等到出事了才想起这句话。

如果你也遇到过类似的"差点出大事"的经历,欢迎在评论区分享,给同行们提个醒。

分享

评论 (0)

评论通过后显示

暂无评论,来写第一条吧 ✍️