Por qué podrías encontrar problemas con los controladores Nvidia
Para proporcionar las últimas capacidades de GPU para Zylon generalmente requerimos las últimas versiones de los controladores Nvidia instalados, lo que significa que deben compilarse bajo demanda para tu versión específica del kernel que tu hardware está ejecutando. Al mismo tiempo, los controladores Nvidia de código abierto todavía están en desarrollo activo y a veces pueden surgir problemas durante la instalación o el tiempo de ejecución. En particular, durante las actualizaciones del kernel o cambios en la configuración del sistema, los controladores Nvidia pueden dejar de funcionar correctamente, fallando al detectar la GPU o causando que los servicios de IA funcionen mal debido a discrepancias en el uso de memoria. Aquí hay algunas formas comunes de diagnosticar si ese es el caso y cómo solucionarlo.1 - Verificar la página de Estado de Zylon
Navega a la página de Estado de Zylon enhttps://<your_zylon_domain>/status. Verifica si hay algún error en la sección de Servicio de IA y en particular zylon-triton.
Si el servicio no está en línea, continúa con los siguientes pasos para diagnosticar el problema.
Si el sistema está en línea pero Zylon sigue fallando, la fuente es muy probablemente un problema a nivel de aplicación, por favor contacta al soporte de Zylon.
Si no puedes acceder a la página de estado, salta al paso 2.
2 - Verificar el Estado del Controlador Nvidia
Verifica la salida denvidia-smi:
2.1 - Controladores no funcionando: nvidia-smi no puede comunicarse con el controlador NVIDIA
Este es el error más común, generalmente causado por una actualización del kernel durante una actualización desatendida. La solución requiere Ejecuta los siguientes comandos:2.2 - Controladores funcionando: nvidia-smi está funcionando correctamente pero el servicio Triton sigue fallando
Sinvidia-smi está funcionando correctamente pero el servicio Triton está fallando (confirma esto en la página de estado), esto generalmente es causado por problemas de caché con respecto a la autodetección de GPU, para solucionarlo ejecuta:
2.3 - Controladores funcionando, pero las soluciones para 2.1 y 2.2 no funcionaron
Sinvidia-smi está funcionando pero las soluciones anteriores no funcionaron, el problema podría estar ubicado en la instalación de Nvidia Container Toolkit.
Verifica que el archivo ubicado aquí: /etc/k0s/containerd.d/nvidia.toml existe, y tiene el siguiente contenido: