Saltar al contenido principal
Esta página es para equipos que usan su propia instancia de Grafana. Zylon proporciona un dashboard de referencia para métricas de plataforma de Triton y vLLM, pero importarlo es una tarea separada en Grafana. No es necesario para activar la observabilidad en Zylon. Úsalo cuando quieras un dashboard externo de Grafana para:
  • salud del servicio
  • rendimiento y errores
  • análisis de latencia
  • cuellos de botella del scheduler y de GPU

Qué necesitas antes

Antes de que este dashboard sea útil, necesitas:
  • métricas de plataforma activadas en Zylon
  • un backend de métricas compatible con Prometheus que ya contenga métricas de Zylon
  • una instancia de Grafana con un datasource de Prometheus conectado a ese backend
Consulta Métricas de plataforma y Destinos de métricas.

Importar el dashboard

Descarga grafana-dashboard.json e impórtalo en tu instancia de Grafana mediante Dashboards → Nuevo → Importar. Para el flujo de importación en Grafana, consulta la documentación de importación de dashboards de Grafana.

Qué muestra el dashboard

El dashboard está construido a partir de las métricas expuestas en el endpoint /metrics de Triton:
  • métricas de Triton Inference Server como recuento de peticiones, latencia, profundidad de cola y salud de GPU
  • métricas de vLLM como estado del scheduler, uso de la caché KV, rendimiento de tokens e histogramas de latencia

Filtros del dashboard

VariablePropósito
DatasourceDatasource de Prometheus a consultar
EnvironmentDespliegue o identificador de empresa
ModelModelo servido por Triton
GPUFiltro gpu_uuid para paneles específicos de GPU

Cómo leer el dashboard

Sigue este orden cuando investigues un problema:
SecciónQué te ayuda a responder
Overview¿Está sano el servicio ahora mismo?
Throughput & Errors¿Cuánto tráfico está gestionando y están fallando peticiones?
Latency¿Dónde se está yendo el tiempo?
Capacity & Scheduler¿El cuello de botella es cola, presión de caché KV o batching?
Workload Analysis¿Qué tipo de peticiones envían los clientes?
GPU Health¿La GPU está saturada o limitada por memoria?
Host Resources¿El nodo está bajo presión?

Paneles por sección

Overview

Indicadores rápidos de salud para tasa de éxito, peticiones por segundo, peticiones concurrentes y profundidad de cola. Secciones Resumen y Rendimiento y errores

Throughput & Errors

Tasa de peticiones, tasa de fallos, motivos de fallo, comportamiento de batching y profundidad de cola a lo largo del tiempo. Paneles de rendimiento y errores Desglose de fallos por motivo, recuento de inferencias vs. ejecuciones y profundidad de la cola de peticiones pendientes

Latency

Latencia extremo a extremo, desglose por fases, TTFT, TPOT y percentiles de latencia de petición. Latencia media de extremo a extremo y cascada de latencia Cola media, cómputo y sobrecarga de E/S; percentiles TTFT de Triton y vLLM Tiempo por token de salida, latencia extremo a extremo, tiempo de prefill y decode, cuantiles de resumen de Triton

Capacity & Scheduler

Estado del scheduler, tiempo en cola, utilización de caché KV, preemptions y tamaño de batch. Paneles de capacidad y planificador

Workload Analysis

Rendimiento de tokens, longitud de prompts, longitud de generación y comportamiento de la caché de prefijos. Rendimiento de tokens, tokens medios por solicitud y distribuciones de longitud de prompt y generación Máximo de tokens de generación, percentiles de máximo de tokens por solicitud y tasa de acierto de la caché de prefijos

GPU Health

Utilización de GPU, presión de memoria, consumo energético y energía acumulada. Utilización de GPU, memoria, consumo energético y energía acumulada

Host Resources

CPU, RAM y disponibilidad de disco desde node_exporter. Uso de CPU, uso de RAM y disponibilidad de disco