Cómo configurar la observabilidad

La observabilidad te ayuda a responder tres preguntas:

¿Zylon está sano?
¿Qué está haciendo?
¿A dónde deben ir sus métricas?

La observabilidad de Zylon tiene cinco partes:

Crash reporting avisa a Zylon cuando la plataforma falla para que soporte pueda diagnosticar el problema.
Métricas de uso envía telemetría anónima de uso a Zylon.
Monitorización instala el stack de monitorización local dentro de tu clúster.
Métricas de plataforma son las métricas técnicas reales de Triton, vLLM, GPU y nodos.
Destinos envía esas métricas a tu propio backend de monitorización.

Primeros pasos

En la mayoría de los casos, piensa en la observabilidad en este orden:

Activa monitoring si quieres métricas.
Activa platformMetrics si quieres métricas de Triton, vLLM, GPU y nodos.
Añade destinations si quieres enviar esas métricas a tu propio backend.
Mantén o desactiva crashReporting y usageMetrics según quieras o no la telemetría de Zylon.

Ejemplo mínimo:

observability:
  monitoring: true
  platformMetrics:
    enabled: true

Esto te da métricas locales en el stack de monitorización del clúster.

Crash reporting

observability:
  crashReporting: true

observability.crashReporting controla si Zylon envía diagnósticos de fallos a Sentry. Actívalo si quieres que el equipo de soporte de Zylon tenga información cuando la plataforma falle. Desactívalo si no quieres enviar ningún diagnóstico de fallos a Zylon.

Métricas de uso

observability:
  usageMetrics: true

observability.usageMetrics controla si Zylon envía telemetría anónima de uso a los servicios de observabilidad gestionados por Zylon. Esta es telemetría de producto, no las métricas detalladas de Triton o vLLM que se usan para operar el clúster. Desactívala si no quieres enviar telemetría de uso a Zylon.

Monitorización

La monitorización debe estar activada si quieres métricas locales o reenvío de métricas a destinos externos.

observability:
  monitoring: true

observability.monitoring instala el stack de monitorización dentro del clúster, incluyendo Prometheus, Grafana y k8s-monitoring. Es la base de todo lo relacionado con métricas. Si monitoring está desactivado, no podrás inspeccionar métricas de plataforma localmente ni reenviarlas a tus propios destinos.

Métricas de plataforma

Las métricas de plataforma requieren monitoring:

observability:
  monitoring: true
  platformMetrics:
    enabled: true

observability.platformMetrics.enabled activa las métricas operativas generadas por el stack de inferencia. Son las métricas que se usan para entender tasa de peticiones, fallos, latencia, profundidad de cola, presión del scheduler, uso de GPU y salud del host. Vienen de Triton, vLLM, el exportador de GPU y node_exporter. Para la configuración completa de estas métricas, consulta Métricas de plataforma.

Destinos externos

Los destinos externos también requieren monitoring:

observability:
  monitoring: true

k8s-monitoring:
  extraDestinations:
    my-prometheus:
      type: prometheus
      url: https://prometheus.example.com/api/v1/write

k8s-monitoring.extraDestinations reenvía las métricas recogidas en tu clúster a tu propio backend de monitorización. Úsalo solo si quieres enviar métricas fuera del stack de monitorización incorporado, por ejemplo a Prometheus, Grafana Cloud o un colector OTLP. Para la configuración de destinos, consulta Destinos de métricas.

Si tu clúster restringe el tráfico saliente, la telemetría y los destinos externos pueden requerir allowlisting de dominios o endpoints. Si desactivas usageMetrics, no necesitas los dominios de telemetría de Zylon.

Siguientes páginas

Para la configuración principal de Zylon:

Métricas de plataforma: habilita métricas de Triton, vLLM, GPU y nodos
Destinos de métricas: envía métricas a Prometheus, backends compatibles con Grafana u OTLP

Si usas tu propia instancia de Grafana, el dashboard es un paso opcional aparte:

Dashboard externo de Grafana: importa el dashboard de referencia en tu propia instancia de Grafana

Primeros pasos

Instalación

Mantenimiento y Operaciones

Backoffice

Configuración

Solución de Problemas

Seguridad

Auditabilidad y gobernanza de IA

Cómo configurar la observabilidad

Primeros pasos

Crash reporting

Métricas de uso

Monitorización

Métricas de plataforma

Destinos externos

Siguientes páginas

​Primeros pasos

​Crash reporting

​Métricas de uso

​Monitorización

​Métricas de plataforma

​Destinos externos

​Siguientes páginas

Primeros pasos

Crash reporting

Métricas de uso

Monitorización

Métricas de plataforma

Destinos externos

Siguientes páginas