NVIDIA GeForce RTX 5090 и RTX PRO 6000 сталкиваются с критическим багом при виртуализации
Флагманские графические процессоры NVIDIA на архитектуре Blackwell — GeForce RTX 5090 и RTX PRO 6000 — демонстрируют серьёзные проблемы стабильности при длительном использовании в виртуализированных средах.
Первыми о сбоях сообщили специалисты облачного сервиса CloudRift. Согласно их данным, после нескольких дней работы в окружении виртуальных машин данные GPU перестают отвечать и становятся недоступными без полной перезагрузки узла. Примечательно, что проблема затрагивает только RTX 5090 и RTX PRO 6000, тогда как такие модели, как RTX 4090, Hopper H100 и Blackwell B200, подобных проблем не имеют.
Сбой возникает при использовании VFIO-драйвера и процедуры Function Level Reset (FLR). После FLR видеокарта перестаёт отвечать, что приводит к soft lock ядра и полной блокировке как хостовой системы, так и клиентских VM. Для восстановления требуется перезагрузка сервера, что крайне неудобно для дата-центров с большим количеством гостевых машин.
Компания NVIDIA уже подтвердила воспроизводимость бага и работает над исправлением. Тем временем CloudRift объявила баунти в $1000 за рабочее решение или обход проблемы.