Las métricas de plataforma son las métricas operativas generadas por el stack de inferencia que se ejecuta en tu clúster. Incluyen:Documentation Index
Fetch the complete documentation index at: https://docs.zylon.ai/llms.txt
Use this file to discover all available pages before exploring further.
- Métricas de Triton como tasa de peticiones, fallos, profundidad de cola y latencia
- Métricas de vLLM como estado del scheduler, presión sobre la caché KV y rendimiento de tokens
- Métricas de GPU del exportador DCGM
- Métricas de nodo de
node_exporter
Antes de activarlas
Las métricas de plataforma requieren el stack de monitorización:Activar métricas de plataforma
Opciones de configuración
| Clave | Valor por defecto | Qué controla |
|---|---|---|
platformMetrics.enabled | false | Activa la recogida de métricas de plataforma |
platformMetrics.generationIntervalMs | 2000 | Intervalo de generación de métricas de Triton |
platformMetrics.gpu.enabled | true | Incluye métricas de GPU |
platformMetrics.inference.counterLatencies | true | Activa contadores acumulativos de latencia |
platformMetrics.inference.histogramLatencies | true | Activa histogramas de latencia |
platformMetrics.inference.summaryLatencies | true | Activa resúmenes de latencia con ventana deslizante |
platformMetrics.inference.summaryQuantiles | "" | Sobrescribe los cuantiles por defecto de Triton |
Qué obtienes
Triton
Familia principal de métricas:nv_*
Ejemplos:
nv_inference_request_successnv_inference_request_failurenv_inference_pending_request_countnv_inference_request_duration_usnv_inference_compute_infer_duration_us
vLLM
Familias principales de métricas:vllm_llms_v1:*vllm_embeddings_v1:*
vllm_llms_v1:num_requests_runningvllm_llms_v1:kv_cache_usage_percvllm_llms_v1:time_to_first_token_seconds_bucketvllm_llms_v1:generation_tokens_total
GPU
Ejemplos:nv_gpu_utilizationnv_gpu_memory_used_bytesnv_gpu_power_usage
Nodo
Familia principal de métricas:node_*
Ejemplos:
node_cpu_seconds_totalnode_memory_MemAvailable_bytesnode_filesystem_avail_bytes
Siguiente paso
Una vez activadas las métricas de plataforma, puedes:- inspeccionarlas en el stack de Grafana del clúster
- reenviarlas a tu propio backend mediante Destinos de métricas
- usar el Dashboard externo de Grafana