GPUHammer: новая угроза для ИИ-моделей на видеокартах NVIDIA
Исследователи из Университета Торонто представили новый тип аппаратной атаки на видеокарты NVIDIA — GPUHammer, способный незаметно изменять содержимое видеопамяти, нарушая работу ИИ-моделей и рабочих приложений. Впервые аналог Rowhammer, ранее известный в контексте оперативной памяти (DDR4), доказал свою работоспособность и на GDDR6 VRAM, используемой в большинстве современных GPU.
Во время тестирования на NVIDIA RTX A6000, учёные показали, что достаточно одного перевёрнутого бита, чтобы снизить точность ИИ-модели с 80% до менее чем 1%, не изменяя ни код, ни входные данные. Атака осуществляется путём многократного доступа к одним и тем же строкам памяти, вызывая электрические наводки, которые «переключают» биты в соседних строках.
Серьёзность ситуации заключается в том, что атакующему не нужен доступ к данным жертвы — достаточно использовать тот же GPU в облачной или серверной среде. Это особенно опасно в условиях общих кластеров, VDI или облачных вычислений, где один GPU обслуживает несколько пользователей. Помимо RTX A6000, уязвимы и другие поколения NVIDIA: Ampere, Ada, Hopper и Turing.
К счастью, NVIDIA уже выпустила рекомендации по защите:
-
Если ваша карта поддерживает ECC (Error Correction Code), включите его.
-
ECC позволяет автоматически обнаруживать и исправлять ошибки памяти.
-
Включение ECC может снизить производительность до 10% в задачах ИИ, а также уменьшить объём доступной VRAM на 6–6,5%, но это оправданная плата за стабильность.
Проверить статус ECC можно через команду:
nvidia-smi -q | grep ECC
Включить ECC:
nvidia-smi -e 1
В новых видеокартах, таких как RTX 5090 и H100, ECC встроен на уровне архитектуры и работает по умолчанию. Однако пользователям серверов и дата-центров с GDDR6 и старшими моделями следует перепроверить конфигурацию вручную.
GPUHammer — не атака на геймеров или обычные ПК. Это реальная угроза для ИИ-кластеров, медицинских систем, финансовых решений и автономных платформ, где каждая ошибка может повлечь за собой опасные последствия вплоть до юридических проблем.
С ростом значимости ИИ и развитием GPU за пределами игр, безопасность памяти на уровне железа стала критически важной.