Saltar al contenido principal

Documentation Index

Fetch the complete documentation index at: https://docs.zylon.ai/llms.txt

Use this file to discover all available pages before exploring further.

Las métricas de plataforma son las métricas operativas generadas por el stack de inferencia que se ejecuta en tu clúster. Incluyen:
  • Métricas de Triton como tasa de peticiones, fallos, profundidad de cola y latencia
  • Métricas de vLLM como estado del scheduler, presión sobre la caché KV y rendimiento de tokens
  • Métricas de GPU del exportador DCGM
  • Métricas de nodo de node_exporter

Antes de activarlas

Las métricas de plataforma requieren el stack de monitorización:
observability:
  monitoring: true

Activar métricas de plataforma

observability:
  monitoring: true
  platformMetrics:
    enabled: true
    generationIntervalMs: 2000
    gpu:
      enabled: true
    inference:
      counterLatencies: true
      histogramLatencies: true
      summaryLatencies: true
      summaryQuantiles: ""

Opciones de configuración

ClaveValor por defectoQué controla
platformMetrics.enabledfalseActiva la recogida de métricas de plataforma
platformMetrics.generationIntervalMs2000Intervalo de generación de métricas de Triton
platformMetrics.gpu.enabledtrueIncluye métricas de GPU
platformMetrics.inference.counterLatenciestrueActiva contadores acumulativos de latencia
platformMetrics.inference.histogramLatenciestrueActiva histogramas de latencia
platformMetrics.inference.summaryLatenciestrueActiva resúmenes de latencia con ventana deslizante
platformMetrics.inference.summaryQuantiles""Sobrescribe los cuantiles por defecto de Triton

Qué obtienes

Triton

Familia principal de métricas: nv_* Ejemplos:
  • nv_inference_request_success
  • nv_inference_request_failure
  • nv_inference_pending_request_count
  • nv_inference_request_duration_us
  • nv_inference_compute_infer_duration_us

vLLM

Familias principales de métricas:
  • vllm_llms_v1:*
  • vllm_embeddings_v1:*
Ejemplos:
  • vllm_llms_v1:num_requests_running
  • vllm_llms_v1:kv_cache_usage_perc
  • vllm_llms_v1:time_to_first_token_seconds_bucket
  • vllm_llms_v1:generation_tokens_total

GPU

Ejemplos:
  • nv_gpu_utilization
  • nv_gpu_memory_used_bytes
  • nv_gpu_power_usage

Nodo

Familia principal de métricas: node_* Ejemplos:
  • node_cpu_seconds_total
  • node_memory_MemAvailable_bytes
  • node_filesystem_avail_bytes

Siguiente paso

Una vez activadas las métricas de plataforma, puedes: Para las listas completas de métricas upstream, consulta la referencia de métricas de Triton y la referencia de métricas de vLLM.