
先说事情经过
前两天看到条新闻,东芝把一个政府部门的Teams聊天记录给删没了。
不是普通数据丢失,是日本厚生劳动省——相当于咱们的卫健委——的Microsoft 365环境,2023年1月到2025年10月将近三年的Teams聊天记录、共享文件和个人文件,全没了。而且部分数据已经不可恢复。
说实话,看完这个新闻我后背一凉。这事放哪个运维身上都是噩梦级别的。
怎么发生的
东芝发了个声明,把前因后果交代清楚了。起因是他们承接了厚生劳动省LAN系统的更新项目,在做数据备份和恢复设置的时候配错了参数。
原本只是想改一下"删除文件存储区域"的保留期限,结果一不小心把"员工日常使用文件区域"的数据保留期限也给改了。这一改不要紧,存储系统直接按新规则把数据给清理了。
更离谱的是——东芝自己承认,整个操作过程中没有请专家审核,也没有联系微软(产品供应商)。
为什么?因为他们觉得这只是个"修改数据保留期限"的辅助性作业,小事一桩,没必要上专家。结果测试用的样本数据不充分,问题根本没被发现,直接就上线了。
这就像你说"我就改个小配置",结果直接把生产环境干趴了。每个做过运维的人都懂这种心态——越是觉得"就改一下不会有事",往往越容易出大事。
这件事告诉我们什么
第一条:操作规范和审核流程不能省。
别看这次是东芝这种级别的公司在操作,犯的错误跟我们平时工作中犯的一模一样——觉得活儿小,跳过流程,结果翻车。我认识一个朋友,在一家互联网公司做DBA,有次觉得"就是改个表结构的小事",没走审批直接在线上执行了,结果锁表锁了快一个小时。跟东芝这个比起来,他那个还算运气好的。
有些流程看起来繁琐,但每一条规则都是用踩过的坑换来的。
第二条:你的数据真的安全吗?
这个案例最吓人的地方在于——东芝明明做了备份。但备份的恢复设置出了错,备份本身就成了摆设。现实中很多公司都在"假装有备份":脚本写了,定时任务设了,但从来没人真正验证过恢复流程能不能跑通。
备份不值钱,能恢复的备份才值钱。这个道理谁都知道,但真正去验证的有几个?
第三条:TCO里应该加上一条——人。
企业上云上协作平台的时候,大家算的都是服务器多少钱、软件多少钱,很少有公司仔细算过"专业运维人员"这笔账。Teams这种看起来人畜无害的协作工具,真要管起来,权限、数据保留、合规归档,每一块都是坑。
东芝这次栽就栽在"低估了配置变更的风险"上。数据迁移和系统更新看着简单,其实里面全是细节。一个保留期限的参数没设对,三年数据说没就没了。
我们能做什么
说到底,这种事离我们一点也不远。分享几个我自己在用的保命习惯:
第一,任何线上操作之前,先把变更方案写清楚。写方案的过程本身就是一次检查。
第二,操作前做一次完整的预演,用和生产环境一致的数据量来测。测试样本太小根本试不出问题。
第三,也是最管用的一条——操作的时候找人看着。不是不信任自己,是两个人四只眼睛能看到一个人漏掉的东西。这叫"四眼原则",我靠它避免了至少三次事故。
第四,定期验证备份的可恢复性。不是看一眼备份文件还在不在,而是真的跑一次恢复流程。你能忍受花多长时间恢复数据,就多久验证一次。
最后说两句
东芝这个事出来之后,估计不少公司的IT部门都回去检查自己的配置了。但说真的,别看了就忘。
这行干久了你会发现,大多数事故都不是技术问题,而是人的问题——大意了、简化了、侥幸了。
上次我在公司内部做分享的时候说过一句话,现在想想还挺应景的:运维这行,不出事的时候你觉得流程太多,出事的时候你后悔流程太少。希望大家都别等到出事了才想起这句话。
如果你也遇到过类似的"差点出大事"的经历,欢迎在评论区分享,给同行们提个醒。
评论 (0)
暂无评论,来写第一条吧 ✍️