Saltar al contenido principal
Las métricas de plataforma son las métricas operativas generadas por el stack de inferencia que se ejecuta en tu clúster. Incluyen:
  • Métricas de Triton como tasa de peticiones, fallos, profundidad de cola y latencia
  • Métricas de vLLM como estado del scheduler, presión sobre la caché KV y rendimiento de tokens
  • Métricas de GPU del exportador DCGM
  • Métricas de nodo de node_exporter

Antes de activarlas

Las métricas de plataforma requieren el stack de monitorización:
observability:
  monitoring: true

Activar métricas de plataforma

observability:
  monitoring: true
  platformMetrics:
    enabled: true
    generationIntervalMs: 2000
    gpu:
      enabled: true
    inference:
      counterLatencies: true
      histogramLatencies: true
      summaryLatencies: true
      summaryQuantiles: ""

Opciones de configuración

ClaveValor por defectoQué controla
platformMetrics.enabledfalseActiva la recogida de métricas de plataforma
platformMetrics.generationIntervalMs2000Intervalo de generación de métricas de Triton
platformMetrics.gpu.enabledtrueIncluye métricas de GPU
platformMetrics.inference.counterLatenciestrueActiva contadores acumulativos de latencia
platformMetrics.inference.histogramLatenciestrueActiva histogramas de latencia
platformMetrics.inference.summaryLatenciestrueActiva resúmenes de latencia con ventana deslizante
platformMetrics.inference.summaryQuantiles""Sobrescribe los cuantiles por defecto de Triton

Qué obtienes

Triton

Familia principal de métricas: nv_* Ejemplos:
  • nv_inference_request_success
  • nv_inference_request_failure
  • nv_inference_pending_request_count
  • nv_inference_request_duration_us
  • nv_inference_compute_infer_duration_us

vLLM

Familias principales de métricas:
  • vllm_llms_v1:*
  • vllm_embeddings_v1:*
Ejemplos:
  • vllm_llms_v1:num_requests_running
  • vllm_llms_v1:kv_cache_usage_perc
  • vllm_llms_v1:time_to_first_token_seconds_bucket
  • vllm_llms_v1:generation_tokens_total

GPU

Ejemplos:
  • nv_gpu_utilization
  • nv_gpu_memory_used_bytes
  • nv_gpu_power_usage

Nodo

Familia principal de métricas: node_* Ejemplos:
  • node_cpu_seconds_total
  • node_memory_MemAvailable_bytes
  • node_filesystem_avail_bytes

Siguiente paso

Una vez activadas las métricas de plataforma, puedes: Para las listas completas de métricas upstream, consulta la referencia de métricas de Triton y la referencia de métricas de vLLM.