La observabilidad te ayuda a responder tres preguntas:
- ¿Zylon está sano?
- ¿Qué está haciendo?
- ¿A dónde deben ir sus métricas?
La observabilidad de Zylon tiene cinco partes:
- Crash reporting avisa a Zylon cuando la plataforma falla para que soporte pueda diagnosticar el problema.
- Métricas de uso envía telemetría anónima de uso a Zylon.
- Monitorización instala el stack de monitorización local dentro de tu clúster.
- Métricas de plataforma son las métricas técnicas reales de Triton, vLLM, GPU y nodos.
- Destinos envía esas métricas a tu propio backend de monitorización.
Primeros pasos
En la mayoría de los casos, piensa en la observabilidad en este orden:
- Activa
monitoring si quieres métricas.
- Activa
platformMetrics si quieres métricas de Triton, vLLM, GPU y nodos.
- Añade
destinations si quieres enviar esas métricas a tu propio backend.
- Mantén o desactiva
crashReporting y usageMetrics según quieras o no la telemetría de Zylon.
Ejemplo mínimo:
observability:
monitoring: true
platformMetrics:
enabled: true
Esto te da métricas locales en el stack de monitorización del clúster.
Crash reporting
observability:
crashReporting: true
observability.crashReporting controla si Zylon envía diagnósticos de fallos a Sentry.
Actívalo si quieres que el equipo de soporte de Zylon tenga información cuando la plataforma falle. Desactívalo si no quieres enviar ningún diagnóstico de fallos a Zylon.
Métricas de uso
observability:
usageMetrics: true
observability.usageMetrics controla si Zylon envía telemetría anónima de uso a los servicios de observabilidad gestionados por Zylon.
Esta es telemetría de producto, no las métricas detalladas de Triton o vLLM que se usan para operar el clúster. Desactívala si no quieres enviar telemetría de uso a Zylon.
Monitorización
La monitorización debe estar activada si quieres métricas locales o reenvío de métricas a destinos externos.
observability:
monitoring: true
observability.monitoring instala el stack de monitorización dentro del clúster, incluyendo Prometheus, Grafana y k8s-monitoring.
Es la base de todo lo relacionado con métricas. Si monitoring está desactivado, no podrás inspeccionar métricas de plataforma localmente ni reenviarlas a tus propios destinos.
Las métricas de plataforma requieren monitoring:
observability:
monitoring: true
platformMetrics:
enabled: true
observability.platformMetrics.enabled activa las métricas operativas generadas por el stack de inferencia.
Son las métricas que se usan para entender tasa de peticiones, fallos, latencia, profundidad de cola, presión del scheduler, uso de GPU y salud del host. Vienen de Triton, vLLM, el exportador de GPU y node_exporter.
Para la configuración completa de estas métricas, consulta Métricas de plataforma.
Destinos externos
Los destinos externos también requieren monitoring:
observability:
monitoring: true
k8s-monitoring:
extraDestinations:
my-prometheus:
type: prometheus
url: https://prometheus.example.com/api/v1/write
k8s-monitoring.extraDestinations reenvía las métricas recogidas en tu clúster a tu propio backend de monitorización.
Úsalo solo si quieres enviar métricas fuera del stack de monitorización incorporado, por ejemplo a Prometheus, Grafana Cloud o un colector OTLP.
Para la configuración de destinos, consulta Destinos de métricas.
Si tu clúster restringe el tráfico saliente, la telemetría y los destinos externos pueden requerir allowlisting de dominios o endpoints. Si desactivas usageMetrics, no necesitas los dominios de telemetría de Zylon.
Siguientes páginas
Para la configuración principal de Zylon:
Si usas tu propia instancia de Grafana, el dashboard es un paso opcional aparte: