Saltar al contenido principal

Documentation Index

Fetch the complete documentation index at: https://docs.zylon.ai/llms.txt

Use this file to discover all available pages before exploring further.

Esta página es para equipos que usan su propia instancia de Grafana. Zylon proporciona un dashboard de referencia para métricas de plataforma de Triton y vLLM, pero importarlo es una tarea separada en Grafana. No es necesario para activar la observabilidad en Zylon. Úsalo cuando quieras un dashboard externo de Grafana para:
  • salud del servicio
  • rendimiento y errores
  • análisis de latencia
  • cuellos de botella del scheduler y de GPU

Qué necesitas antes

Antes de que este dashboard sea útil, necesitas:
  • métricas de plataforma activadas en Zylon
  • un backend de métricas compatible con Prometheus que ya contenga métricas de Zylon
  • una instancia de Grafana con un datasource de Prometheus conectado a ese backend
Consulta Métricas de plataforma y Destinos de métricas.

Importar el dashboard

Descarga grafana-dashboard.json e impórtalo en tu instancia de Grafana mediante Dashboards → Nuevo → Importar. Para el flujo de importación en Grafana, consulta la documentación de importación de dashboards de Grafana.

Qué muestra el dashboard

El dashboard está construido a partir de las métricas expuestas en el endpoint /metrics de Triton:
  • métricas de Triton Inference Server como recuento de peticiones, latencia, profundidad de cola y salud de GPU
  • métricas de vLLM como estado del scheduler, uso de la caché KV, rendimiento de tokens e histogramas de latencia

Filtros del dashboard

VariablePropósito
DatasourceDatasource de Prometheus a consultar
EnvironmentDespliegue o identificador de empresa
ModelModelo servido por Triton
GPUFiltro gpu_uuid para paneles específicos de GPU

Cómo leer el dashboard

Sigue este orden cuando investigues un problema:
SecciónQué te ayuda a responder
Overview¿Está sano el servicio ahora mismo?
Throughput & Errors¿Cuánto tráfico está gestionando y están fallando peticiones?
Latency¿Dónde se está yendo el tiempo?
Capacity & Scheduler¿El cuello de botella es cola, presión de caché KV o batching?
Workload Analysis¿Qué tipo de peticiones envían los clientes?
GPU Health¿La GPU está saturada o limitada por memoria?
Host Resources¿El nodo está bajo presión?

Paneles por sección

Overview

Indicadores rápidos de salud para tasa de éxito, peticiones por segundo, peticiones concurrentes y profundidad de cola. Secciones Resumen y Rendimiento y errores

Throughput & Errors

Tasa de peticiones, tasa de fallos, motivos de fallo, comportamiento de batching y profundidad de cola a lo largo del tiempo. Paneles de rendimiento y errores Desglose de fallos por motivo, recuento de inferencias vs. ejecuciones y profundidad de la cola de peticiones pendientes

Latency

Latencia extremo a extremo, desglose por fases, TTFT, TPOT y percentiles de latencia de petición. Latencia media de extremo a extremo y cascada de latencia Cola media, cómputo y sobrecarga de E/S; percentiles TTFT de Triton y vLLM Tiempo por token de salida, latencia extremo a extremo, tiempo de prefill y decode, cuantiles de resumen de Triton

Capacity & Scheduler

Estado del scheduler, tiempo en cola, utilización de caché KV, preemptions y tamaño de batch. Paneles de capacidad y planificador

Workload Analysis

Rendimiento de tokens, longitud de prompts, longitud de generación y comportamiento de la caché de prefijos. Rendimiento de tokens, tokens medios por solicitud y distribuciones de longitud de prompt y generación Máximo de tokens de generación, percentiles de máximo de tokens por solicitud y tasa de acierto de la caché de prefijos

GPU Health

Utilización de GPU, presión de memoria, consumo energético y energía acumulada. Utilización de GPU, memoria, consumo energético y energía acumulada

Host Resources

CPU, RAM y disponibilidad de disco desde node_exporter. Uso de CPU, uso de RAM y disponibilidad de disco