Saltar al contenido principal
Esta sección de solución de problemas proporciona soluciones a problemas comunes encontrados con los controladores Nvidia en instalaciones de Zylon.

Por qué podrías encontrar problemas con los controladores Nvidia

Para proporcionar las últimas capacidades de GPU para Zylon generalmente requerimos las últimas versiones de los controladores Nvidia instalados, lo que significa que deben compilarse bajo demanda para tu versión específica del kernel que tu hardware está ejecutando. Al mismo tiempo, los controladores Nvidia de código abierto todavía están en desarrollo activo y a veces pueden surgir problemas durante la instalación o el tiempo de ejecución. En particular, durante las actualizaciones del kernel o cambios en la configuración del sistema, los controladores Nvidia pueden dejar de funcionar correctamente, fallando al detectar la GPU o causando que los servicios de IA funcionen mal debido a discrepancias en el uso de memoria. Aquí hay algunas formas comunes de diagnosticar si ese es el caso y cómo solucionarlo.

1 - Verificar la página de Estado de Zylon

Navega a la página de Estado de Zylon en https://<your_zylon_domain>/status. Verifica si hay algún error en la sección de Servicio de IA y en particular zylon-triton. Si el servicio no está en línea, continúa con los siguientes pasos para diagnosticar el problema. Si el sistema está en línea pero Zylon sigue fallando, la fuente es muy probablemente un problema a nivel de aplicación, por favor contacta al soporte de Zylon. Si no puedes acceder a la página de estado, salta al paso 2.

2 - Verificar el Estado del Controlador Nvidia

Verifica la salida de nvidia-smi:
nvidia-smi

+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 575.51.03              Driver Version: 575.51.03      CUDA Version: 12.9     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA L40S                    Off |   00000000:30:00.0 Off |                    0 |
| N/A   38C    P0            104W /  350W |   40673MiB /  46068MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+

+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|    0   N/A  N/A           18592      C   tritonserver                            490MiB |
|    0   N/A  N/A           23968      C   VLLM::EngineCore                      38968MiB |
|    0   N/A  N/A           26834      C   VLLM::EngineCore                       1196MiB |
+-----------------------------------------------------------------------------------------+
Debería reportar el estado de la GPU, junto con el proceso que la está usando.

2.1 - Controladores no funcionando: nvidia-smi no puede comunicarse con el controlador NVIDIA

Este es el error más común, generalmente causado por una actualización del kernel durante una actualización desatendida. La solución requiere Ejecuta los siguientes comandos:
sudo zylon-cli install-drivers --force # Reinstalar controladores Nvidia
helm uninstall gpu-operator -n nvidia # Desinstalar operador GPU
sudo reboot # Reiniciar el sistema para limpiar cualquier información de GPU en caché
sudo zylon-cli update # Reinstalar operador GPU cuando el sistema vuelva a estar en línea
Espera unos minutos y verifica la página de estado nuevamente, el problema debería estar resuelto. La instalación del controlador tomará de 10 a 15 minutos, y 3~5 minutos adicionales hasta que Triton vuelva a estar en línea.

2.2 - Controladores funcionando: nvidia-smi está funcionando correctamente pero el servicio Triton sigue fallando

Si nvidia-smi está funcionando correctamente pero el servicio Triton está fallando (confirma esto en la página de estado), esto generalmente es causado por problemas de caché con respecto a la autodetección de GPU, para solucionarlo ejecuta:
helm uninstall gpu-operator -n nvidia
sudo reboot # Reiniciar para limpiar cualquier información de GPU en caché
sudo zylon-cli update # Reinstalar operador GPU
Espera unos minutos y verifica la página de estado nuevamente, el problema debería estar resuelto. Ten en cuenta que en este caso Triton podría tomar 3~5 minutos para volver a estar en línea.

2.3 - Controladores funcionando, pero las soluciones para 2.1 y 2.2 no funcionaron

Si nvidia-smi está funcionando pero las soluciones anteriores no funcionaron, el problema podría estar ubicado en la instalación de Nvidia Container Toolkit. Verifica que el archivo ubicado aquí: /etc/k0s/containerd.d/nvidia.toml existe, y tiene el siguiente contenido:
# Permitir que k0s containerd use nvidia-container-runtime
[plugins."io.containerd.grpc.v1.cri".containerd.runtimes.nvidia]
privileged_without_host_devices = false
runtime_engine = ""
runtime_root = ""
runtime_type = "io.containerd.runc.v2"

[plugins."io.containerd.grpc.v1.cri".containerd.runtimes.nvidia.options]
BinaryName = "/usr/bin/nvidia-container-runtime"
Si el archivo falta, puedes recrearlo automáticamente ejecutando:
sudo zylon-cli setup
sudo reboot # Reiniciar el sistema
Espera unos minutos y verifica la página de estado nuevamente, el problema debería estar resuelto.