
Виртуализация дала сбой — тысячи GPU замерли: что скрывает новая линейка Nvidia
Недавно облачный провайдер CloudRift столкнулся с загадочной проблемой: новые видеокарты Nvidia GeForce RTX 5090 и RTX PRO 6000 переставали отвечать после передачи в виртуальную машину. По логам, после завершения работы гостевой системы карты блокировались на уровне PCIe, а стандартный сброс FLR не помогал. В терминале это выглядело как отчаянное сообщение ядра: устройство не готово через 65535 мс после FLR. Единственным спасением оказывалась полная перезагрузка питания всей машины.
Признаки массового сбоя
Tiny Corp, стартап, занимающийся tinygrad, подхватил тревожный сигнал, задался вопросом, не является ли это аппаратным дефектом Blackwell-архитектуры. Пользователи на форумах Proxmox и Level1Techs подтвердили: дома и на ранних тестовых системах RTX 5090 зависала точно так же. В некоторых случаях хост полностью замирал после завершения работы гостевой Windows, и даже после перезагрузки ОС карта оставалась неинициализируемой. Настройки PCIe ASPM и ACS не спасали, а старые карты вроде RTX 4090 работали без сбоев.
Почему это тревожно для виртуализации
FLR — функция критически важная для безопасного перераспределения GPU между виртуальными машинами. Если она работает нестабильно, каждая попытка задействовать новые Blackwell-карты в многопользовательских нагрузках ИИ или домашней лаборатории превращается в рулетку: одна карта может заморозить весь хост. CloudRift даже предложил $1000 за поиск исправления или первопричины, но Nvidia пока официально проблему не комментировала.
Скрытые риски новых GPU
Ирония ситуации в том, что технологические новинки, призванные ускорять вычисления, внезапно создают головную боль для инженеров и энтузиастов. Пользователи учатся обходить ограничения, а сама проблема становится своеобразным тестом на терпение и креативность в виртуализации. Пока решения нет, а карты остаются замороженными, как статуи цифрового мира.
Подписывайтесь на Moneytimes.Ru