东芝把日本政府Teams记录全删了，这件事给所有做运维的人上了一课

先说事情经过

前两天看到条新闻，东芝把一个政府部门的Teams聊天记录给删没了。

不是普通数据丢失，是日本厚生劳动省——相当于咱们的卫健委——的Microsoft 365环境，2023年1月到2025年10月将近三年的Teams聊天记录、共享文件和个人文件，全没了。而且部分数据已经不可恢复。

说实话，看完这个新闻我后背一凉。这事放哪个运维身上都是噩梦级别的。

东芝发了个声明，把前因后果交代清楚了。起因是他们承接了厚生劳动省LAN系统的更新项目，在做数据备份和恢复设置的时候配错了参数。

原本只是想改一下"删除文件存储区域"的保留期限，结果一不小心把"员工日常使用文件区域"的数据保留期限也给改了。这一改不要紧，存储系统直接按新规则把数据给清理了。

更离谱的是——东芝自己承认，整个操作过程中没有请专家审核，也没有联系微软（产品供应商）。

为什么？因为他们觉得这只是个"修改数据保留期限"的辅助性作业，小事一桩，没必要上专家。结果测试用的样本数据不充分，问题根本没被发现，直接就上线了。

这就像你说"我就改个小配置"，结果直接把生产环境干趴了。每个做过运维的人都懂这种心态——越是觉得"就改一下不会有事"，往往越容易出大事。

第一条：操作规范和审核流程不能省。

别看这次是东芝这种级别的公司在操作，犯的错误跟我们平时工作中犯的一模一样——觉得活儿小，跳过流程，结果翻车。我认识一个朋友，在一家互联网公司做DBA，有次觉得"就是改个表结构的小事"，没走审批直接在线上执行了，结果锁表锁了快一个小时。跟东芝这个比起来，他那个还算运气好的。

有些流程看起来繁琐，但每一条规则都是用踩过的坑换来的。

第二条：你的数据真的安全吗？

这个案例最吓人的地方在于——东芝明明做了备份。但备份的恢复设置出了错，备份本身就成了摆设。现实中很多公司都在"假装有备份"：脚本写了，定时任务设了，但从来没人真正验证过恢复流程能不能跑通。

备份不值钱，能恢复的备份才值钱。这个道理谁都知道，但真正去验证的有几个？

第三条：TCO里应该加上一条——人。

企业上云上协作平台的时候，大家算的都是服务器多少钱、软件多少钱，很少有公司仔细算过"专业运维人员"这笔账。Teams这种看起来人畜无害的协作工具，真要管起来，权限、数据保留、合规归档，每一块都是坑。

东芝这次栽就栽在"低估了配置变更的风险"上。数据迁移和系统更新看着简单，其实里面全是细节。一个保留期限的参数没设对，三年数据说没就没了。

说到底，这种事离我们一点也不远。分享几个我自己在用的保命习惯：

第一，任何线上操作之前，先把变更方案写清楚。写方案的过程本身就是一次检查。

第二，操作前做一次完整的预演，用和生产环境一致的数据量来测。测试样本太小根本试不出问题。

第三，也是最管用的一条——操作的时候找人看着。不是不信任自己，是两个人四只眼睛能看到一个人漏掉的东西。这叫"四眼原则"，我靠它避免了至少三次事故。

第四，定期验证备份的可恢复性。不是看一眼备份文件还在不在，而是真的跑一次恢复流程。你能忍受花多长时间恢复数据，就多久验证一次。

东芝这个事出来之后，估计不少公司的IT部门都回去检查自己的配置了。但说真的，别看了就忘。

这行干久了你会发现，大多数事故都不是技术问题，而是人的问题——大意了、简化了、侥幸了。

上次我在公司内部做分享的时候说过一句话，现在想想还挺应景的：运维这行，不出事的时候你觉得流程太多，出事的时候你后悔流程太少。希望大家都别等到出事了才想起这句话。

如果你也遇到过类似的"差点出大事"的经历，欢迎在评论区分享，给同行们提个醒。