В этой статье мы сравним новинку от компании Nvidia — GeForce RTX 4090 — с различными профессиональными картами от этого производителя и попытаемся ответить на вопрос «Выгодно ли использовать новую видеокарту в рабочих процессах или все-таки лучше использовать серверные видеокарты?».
Профессиональные и игровые GPU-карты имеют ряд значительных отличий, определяемых целью использования:
- Сфера применения. Серверные видеокарты применяются в ML-разработке, рендеринге и моделировании сложных объектов, научных исследованиях, кинопроизводстве и т. д. Игровые видеокарты предназначены для индивидуального использования.
- Охлаждение. Система охлаждения профессиональных карт выдувает горячий воздух из сервера или рабочей станции. Турбина охлаждения у них предназначена для постоянной работы. Игровые карты выдувают воздух вверх карты, они должны использоваться в специальных корпусах с хорошей системой вентиляции. Вентиляторы игровых карт не предназначены для длительной работы и выходят из строя при длительной постоянной эксплуатации.
- Производительность и энергоэффективность. Профессиональные GPU позволяют производить больше вычислений при меньшем энергопотреблении. Эта особенность во многом определяет высокую стоимость серверных видеокарт.
- Особенности производства. Контроль качества при изготовлении профессиональных карт строже, нежели при создании игровых.
- Разъемы. Профессиональные карты не снабжены разъемами (HDMI, DVI) для вывода видео — есть только DisplayPort.
- Дополнительный функционал. Не все серверные GPU могут быть использованы для игр.
Обзор технологии GeForce RTX 4090
Графический процессор GeForce RTX 4090 был выпущен в конце 2022 года и стал продолжением линейки десктопных ускорителей от компании NVIDIA, что вызвало большой интерес у игроков по всему миру.
Ключевыми особенностями карты являются:
- Как и во всей линейке GeForce RTX 40, используются новые графические процессоры AD10x (в 4090 — AD102) на основе архитектуры Ada Lovelace и с применением технологического процесса 4N (TSMC).
- Повышена производительность операций трассировки лучей и машинного вычисления на тензорных ядрах.
- Технологический процесс 4N позволяет повысить энергоэффективность на несколько процентов.
- Размер карты (304 на 137 мм, 3 слота) осложняет ее монтаж как в настольных ПК, так и в серверах.
- Игровая система охлаждения, что зачастую делает невозможным использование 4090 в GPU-серверах.
- По сравнению с 3090, в AD102 на 70% больше CUDA-ядер.
- Технология NVIDIA DLSS 3 использует алгоритмы анализа векторов движения и OFA.
- Платформа NVIDIA Reflex с низкой задержкой позволяет повысить качество игры профессиональных геймеров.
- Кодировщик NVEnc 8-го поколения с поддержкой кодирования AV1.
- Приложение NVIDIA Broadcast.
- NVIDIA Studio.
Технические характеристики видеокарт NVIDIA RTX A4000, NVIDIA RTX A5000, NVIDIA RTX 3090 и NVIDIA RTX 4090
RTX A4000 | RTX A5000 | RTX 3090 | RTX 4090 | |
---|---|---|---|---|
Архитектура | Ampere | Ampere | Ampere | Ada Lovelace |
Техпроцесс | 8 нм | 8 нм | 8 нм | 4N |
Графический процессор | GA104 | GA102 | GA102 | AD102 |
Количество транзисторов (млрд.) | 17,4 | 28,3 | 28,3 | 76,3 |
Тактовая частота (ГГц) | 0,74 | 1.17 | 1,39 | 2,23 |
Тактовая частота с ускорением (ГГц) | 1.56 | 1.70 | 1.70 | 2,52 |
Memory frequency (МГц) | 1,750 | 2,000 | 1,219 | 1,325 |
Пропускная способность памяти (Гб/с) | 448 | 768 | 936.2 | 1008 |
Память GPU (Гб) | 16 ГБ | 24 | 24 | 24 |
Тип памяти | GDDR6 | GDDR6 | GDDR6X | GDDR6X |
Cache memory (Мб) | 4 | 6 | 6 | 72 |
Память ECC | есть | есть | нет | нет |
Ядра CUDA | 6 144 | 8192 | 10496 | 16384 |
Тензорные ядра | 192 | 256 | 328 | 512 |
Ядра RT | 48 | 64 | 82 | 128 |
Количество текстурных модулей | 192 | 256 | 328 | 512 |
Максимальная мощность (Вт) | 140 | 230 | 350 | 450 |
Вычислительная производительность FP16 (half) (терафлопс) | 19.2 | 27.8 | 35.6 | 82.6 |
Вычислительная производительность FP32 (float) (терафлопс) | 19.2 | 27.8 | 35.6 | до 82,6 |
Вычислительная производительность FP64 (double) | 599 гигафлопс | 867.8 гигафлопс | 556 гигафлопс | 1.3 терафлопс |
Теоретическая максимальная скорость закраски (гигапикселей/с) | 149.8 | 162.7 | 189.8 | 444 |
Теоретическая скорость выборки текстур (гигатекселей/с) | 149.8 | 433.9 | 566 | 1290 |
Интерфейс | PCI-E 4.0 x16 | PCI-E 4.0 x16 | PCI-E 4.0 x16 | PCI-E 4.0 x16 |
NVIDIA DLSS | нет | нет | есть | 3 |
Nvlink | нет | Двухплатная низкопрофильная конфигурация (мосты на 2 и 3 слота) | нет | нет |
Поддержка CUDA | 8.6 | 8.6 | 8.6 | 8.9 |
Поддержка VULKAN | 1.3 | 1.3 | 1.2 | 1.3 |
DirectX | 12 Ultimate | 12 Ultimate | 12 Ultimate | 12 Ultimate |
Shader Model | 6.6 | 6.6 | 6.7 | 6.7 |
OpenGL | 4.6 | 4.6 | 4.6 | 4.6 |
OpenCL | 3.0 | 3.0 | 3.0 | 3.0 |
Поддержка ПО Virtual GPU (vGPU) | — | NVIDIA Virtual PC (vPC) и Virtual Applications (vApps), NVIDIA RTX vWS, NVIDIA Virtual Compute Server | — | — |
Цена (руб.) | 111 917 | 216 000 | 116 990 | от 138 000 |
Новая архитектура, пропускная способность памяти и количество тензорных ядер, технология DLSS 3 и другие характеристики GeForce RTX 4090 определяют широкий спектр применения графического процессора — не только гейминг, но и работа с искусственным интеллектом, сложными вычислениями.
Тестирование HOSTKEY
Описание тестовой среды- Процессор AMD Ryzen 9 5900 X 12-Core Processor (3.80 GHz)
- 32 GB DDR4-3200 ECC DDR4 SDRAM 1600 МГц
- Microsoft Windows 10 Professional 64-разрядная
Tест V-Ray GPU CUDA
Tест V-Ray GPU RTX
Blender Benchmark
В этом тесте и в LuxMark мы сравним только карты RTX A5000 и RTX 4090, поскольку они наиболее интересны в контексте этой статьи.
LuxMark
Мы измерили относительную производительность GPU при рендеринге. Показатели GeForce RTX 4090 в тестах выглядят впечатляюще и превосходят практически вдвое не только результаты RTX 3090, но и профессиональные GPU. Тест V-Ray GPU RTX демонстрирует работу GPU с трассировкой лучей — показатели RTX 4090 также в два раза превосходят результаты RTX 3090.
«Собаки против кошек»
Для сравнения производительности GPU для нейросетей мы используем набор данных «Собаки против кошек» — тест анализирует содержимое фотографии и различает, изображена на фото кошка или собака. Все необходимые исходные данные находятся здесь. Мы запускали этот тест на разных GPU и в различных облачных сервисах, получили следующие результаты:
Полный цикл обучения (мин.)
Полный цикл обучения тестовой нейросети занял от 31 до 60 минут. Результат GeForce RTX 4090 составил 31 минуту и превзошел показатели всех остальных GPU. Наиболее заметна разница в результатах карт RTX 3090 и RTX 4090 — новое поколение ГПУ от NVIDIA справилось с расчетами почти вдвое быстрее предыдущего.
Тесты показали, что ближайшим конкурентом карты 4090 является A5000. Осталось сравнить эти карты по соотношению цена-качество. Во всех проведенных тестах новая карта от Nvidia показала результат, превышающий показатель RTX A5000 примерно вдвое. В то же время стоимость RTX 4090 значительно ниже: 138 тысяч рублей (минимальная цена) против 216 тысяч. Казалось бы, выбор очевиден — но есть нюансы. GPU A5000 потребляет значительно меньше энергии и может быть выгодным решением для задач с постоянной высокой нагрузкой на GPU на длинной дистанции. RTX A5000 поддерживает технологию NVLink, что полезно при обучении нейронных сетей. GPU A5000 не имеют ограничений на использование NVENC/NVDEC при задачах параллельного транскодирования видео. При покупке специализированной лицензии профессиональные GPU класса A5000 могут быть виртуализированны и доступны в сервере как несколько виртуальных GPU меньшей мощности. Еще одна проблема — запрет Nvidia на использование драйверов для своих игровых карт в дата-центрах и в удаленном режиме вне офиса.
Хотя на промофото NVidia много 4090 с большими вентиляторами и формате 3 юнита, в реальности эту конфигурацию практически невозможно купить. На складах есть только игровые карты большого размера на 4 юнита и повышенной высоты с выдувом вверх и вниз карты. Такие карты не могут быть использованы в серверах и большинстве рабочих станцией.
Заключение
Переход на новую архитектуру Ada Lovelace позволил значительно увеличить производительность GeForce RTX 4090. Улучшенные тензорные ядра и ядра RT значительно повышают качество и расширяют возможности трассировки лучей в реальном времени. Объем памяти в 24 Гб позволяет обрабатывать большие массивы данных.
GeForce RTX 4090 в первую очередь предназначена для гейминга и прекрасно подходит для решения различных типов вычислительных задач: ИИ, анализ данных, машинное обучение. Новая архитектура значительно превосходит предыдущее поколение графических процессоров от NVIDIA. Важным ограничением в профессиональном использовании этой видеокарты — высокое энергопотребление и отсутствие возможности объединить несколько карт при помощи Nvlink.
Альтернативой приобретению видеокарты является аренда сервера с GPU. Наши расчеты показывают, что месячная аренда карт GeForce RTX 4090 и RTX A5000 сопоставима по цене. Соответственно, при необходимости выполнения профессиональных задач аренда карты GeForce RTX 4090 может быть выгодна за счет ее высокой производительности.