Выпуск нового в оборудования, учет рыночных тенденций и внимательное отношение к потребностям пользователей помогают нам разрабатывать новые продукты для более эффективного решения задач корпоративных клиентов. На смену устаревшей серии GTX10 и дефицитной RTX30 пришли наследницы серии Quadro — GPU A4000 и А5000. Именно за счет серверов с новыми видеокартами мы расширили свой серверный парк и предлагаем вам оценить производительность и экономичность нового решения.
Все новые GPU NVIDIA создаются на базе текущей архитектуры Ampere.
Для российских резидентов доступна оплата услуг хостинга в зарубежных дата-центрах в рублях на счет российской компании - банковскими картами, в том числе платежной системы МИР, банковскими переводами и другими способами, доступными на территории России.
Ampere использует 8-нм техпроцесс от Samsung и поддерживает высокоскоростную память GDDR6, HBM2 и GDDR6X. Память GDDR6X является шестым поколением памяти DDR SDRAM и может достигать скорости до 21 Гбит/с. В А5000 и А4000 Nvidia использует ядра RT 2-го поколения и тензорные ядра 3-го поколения, позволяющие обеспечить двукратный прирост производительности по сравнению со старыми ядрами Turing. GPU карты используют стандарт PCIe Gen 4, что позволяет убрать узкие места при обмене данными с GPU.
В Ampere используется новая версия CUDA 8+. На чипе теперь есть два потоковых мультипроцессора FP32, что обеспечивает рост производительности FP32 по сравнению с картами на базе Turing. Старшие GPU A5000 и выше поддерживают NVLink 3.0 для объединения карт парами — это приводит к кратному увеличению производительности.
Видеокарты NVIDIA RTX A4000 и RTX A5000 были анонсированы в апреле 2021 года.
Технические характеристики и стоимость видеокарт NVIDIA RTX A4000 и RTX A5000, RTX 3090, Quadro RTX 4000
Архитектура | |
Quadro RTX 4000 | Turing |
GTX 1080Ti | Pascal |
RTX A4000 | Ampere |
RTX A5000 | Ampere |
RTX 3090 | Ampere |
Техпроцесс | |
Quadro RTX 4000 | 12 nm FinFET |
GTX 1080Ti | 16 нм FinFET |
RTX A4000 | 8 нм |
RTX A5000 | 8 нм |
RTX 3090 | 8 нм |
Графический процессор | |
Quadro RTX 4000 | TU104 |
GTX 1080Ti | GP102 |
RTX A4000 | GA102 |
RTX A5000 | GA104 |
RTX 3090 | GA102 |
Количество транзисторов | |
Quadro RTX 4000 | 11 800 млн |
GTX 1080Ti | 13 600 млн |
RTX A4000 | 17 400 млн |
RTX A5000 | 28 300 млн |
RTX 3090 | 28 300 млн |
Пропускная способность памяти | |
Quadro RTX 4000 | 416 Гб/с |
GTX 1080Ti | 484 Гб/с |
RTX A4000 | 448 GB/s |
RTX A5000 | 768 GB/s |
RTX 3090 | 936.2 Гб/с |
Разрядность шины видеопамяти | |
Quadro RTX 4000 | 256 бит |
GTX 1080Ti | 352 бит |
RTX A4000 | 256 бит |
RTX A5000 | 384 бит |
RTX 3090 | 384 бит |
Память GPU | |
Quadro RTX 4000 | 8 Гб GDDR6 |
GTX 1080Ti | 11 ГБ GDDR5X |
RTX A4000 | 16 ГБ GDDR6 |
RTX A5000 | 24 ГБ GDDR6 |
RTX 3090 | 24 ГБ GDDR6X |
Память ECC | |
Quadro RTX 4000 | нет |
GTX 1080Ti | нет |
RTX A4000 | да |
RTX A5000 | да |
RTX 3090 | нет |
Ядра CUDA | |
Quadro RTX 4000 | 2 304 |
GTX 1080Ti | 3 584 |
RTX A4000 | 6 144 |
RTX A5000 | 8 192 |
RTX 3090 | 10 496 |
Тензорные ядра | |
Quadro RTX 4000 | 288 |
GTX 1080Ti | |
RTX A4000 | 192 |
RTX A5000 | 256 |
RTX 3090 | 328 |
Ядра RT | |
Quadro RTX 4000 | 36 |
GTX 1080Ti | |
RTX A4000 | 48 |
RTX A5000 | 64 |
RTX 3090 | 82 |
SP performance | |
Quadro RTX 4000 | 7.1 терафлопс |
GTX 1080Ti | |
RTX A4000 | 19,2 терафлопс |
RTX A5000 | 27,8 терафлопс |
RTX 3090 | 35,6 терафлопс |
RT Core performance | |
Quadro RTX 4000 | нет |
GTX 1080Ti | нет |
RTX A4000 | 37,4 терафлопс |
RTX A5000 | 54,2 терафлопс |
RTX 3090 | 69,5 терафлопс |
Tensor performance | |
Quadro RTX 4000 | 57,0 терафлопс |
GTX 1080Ti | |
RTX A4000 | 153,4 терафлопс |
RTX A5000 | 222,2 терафлопс |
RTX 3090 | 285 терафлопс |
Максимальная мощность | |
Quadro RTX 4000 | 160 Вт |
GTX 1080Ti | 250 Вт |
RTX A4000 | 140 Вт |
RTX A5000 | 230 Вт |
RTX 3090 | 350 Вт |
Интерфейс | |
Quadro RTX 4000 | PCIe 3.0 x16 |
GTX 1080Ti | PCI Express 3.0 x16 |
RTX A4000 | PCI-E 4.0 x16 |
RTX A5000 | PCI-E 4.0 x16 |
RTX 3090 | PCIe 4.0 x16 |
Разъемы | |
Quadro RTX 4000 | ДП 1.4 (3) |
GTX 1080Ti | |
RTX A4000 | ДП 1.4 (4) |
RTX A5000 | ДП 1.4 (4) |
RTX 3090 | ДП 1.4 (4) |
Форм-фактор | |
Quadro RTX 4000 | 1 слот |
GTX 1080Ti | 2 слота |
RTX A4000 | 1 слот |
RTX A5000 | 2 слота |
RTX 3090 | 2-3 слота |
Программное обеспечение vGPU | |
Quadro RTX 4000 | нет |
GTX 1080Ti | нет |
RTX A4000 | нет |
RTX A5000 | есть неограниченно |
RTX 3090 | есть с ограничениями |
Nvlink | |
Quadro RTX 4000 | нет |
GTX 1080Ti | нет |
RTX A4000 | нет |
RTX A5000 | 2x RTX A5000 |
RTX 3090 | есть |
Поддержка CUDA | |
Quadro RTX 4000 | 7.5 |
GTX 1080Ti | 6.1 |
RTX A4000 | 8.6 |
RTX A5000 | 8.6 |
RTX 3090 | 8.6 |
Поддержка VULKAN | |
Quadro RTX 4000 | есть, 1.2.131 |
GTX 1080Ti | есть, 1.2.131 |
RTX A4000 | есть |
RTX A5000 | есть |
RTX 3090 | есть, 1.2 |
Цена | |
Quadro RTX 4000 | 115 000 руб. |
GTX 1080Ti | 66 000 руб. |
RTX A4000 | 125 000 руб. |
RTX A5000 | 190 000 руб. |
RTX 3090 | 215 000 руб. |
На новых картах куда больше памяти, это позволяет эффективно работать с нейросетями и изображениями.
Другим существенным отличием RTX A4000 и RTX A5000 является аппаратное ускорение размытия движения, позволяющее значительно сократить время и затраты на при рендеринге.
В старших картах от RTX A5000 есть поддержка vGPU — NVIDIA RTX vWS что позволяет обеспечить совместное использование вычислительных ресурсов и виртуальных GPU несколькими пользователями.
В среднем новые видеокарты NVIDIA обгоняют по производительности старую линейку Quadro в 1,5-2 раза и потребляют меньше электричества.
Мы провели собственное тестирование профессиональных видеокарт NVIDIA RTX A5000 и A4000 и сравнили их с RTX 3090 и Quadro RTX 4000 — представителем предыдущего поколения профессиональных видеокарт компании NVIDIA.
Описание тестовой среды
-
Процессор OctaCore Intel Xeon E-2288G, 3,5 GHz;
-
32 GB DDR4-3200 ECC DDR4 SDRAM 1600 МГц;
-
Samsung SSD 980 PRO 1TB (1000 GB, PCI-E 4.0 x4);
-
Серверная материнская плата Asus P11C-I Series (1 PCI-E x16, 1 M.2, 2 DDR4 DIMM, 2x Gigabit LAN + IPMI);
-
Microsoft Windows 10 Professional 64-разрядная.
Результаты тестов
-
Tест V-Ray GPU RTX
-
-
Tест V-Ray GPU CUDA
-
Тесты V-Ray GPU CUDA и RTX позволяют измерить относительную производительность GPU при рендеринге. GPU RTX A4000 и RTX A5000 значительно превосходят по производительности Quadro RTX 4000 и GeForce GTX 1080 Ti (тест V-Ray GPU RTX на этой карте провести невозможно, т.к. она не поддерживает технологию RTX), но уступают RTX 3090, что объясняется высокой пропускной способностью памяти (936.2 Гб/с против 768.0 Гб/с у RTX A5000) и количеством потоковых процессоров (10496 против 8192 у RTX A5000).
«Собаки против кошек»
Для сравнения производительности GPU для нейросетей мы используем набор данных «Собаки против кошек» — тест анализирует содержимое фотографии и различает изображена на фото кошка или собака. Все необходимые исходные данные находятся здесь. Мы запускали этот тест на разных GPU и в различных облачных сервисах, получили следующие результаты:
Полный цикл обучения
Полный цикл обучения тесовой нейросети занял от 5 до 30 минут. Результат NVIDIA RTX A5000 и A4000 составил 07:30 и 9:10 минут соответственно. Быстрее единичных NVIDIA RTX A5000 и A4000 работал только GPU сервер с 8 картами GeForce RTX 2080Ti и потреблением электричества около 2 кВт/час. Видеокарты Tesla V100 прошлого поколения доступны в сервисах Google Cloud Compute Engine, Microsoft Azure и Amazon Web Services и показали наилучший результат из протестированных там карт.
Сколько стоит обучить нейросеть в разных местах?
На графике представлена стоимость обучения модели с использованием различных сервисов для следующих конфигураций:
-
AWS — AWS p3.2xlarge;
-
Google Cloud — GCP Compute Engine;
-
Microsoft Azure — Tesla V100;
-
HOSTKEY — RTX А4000, RTX A5000.
В настоящее время мы предоставляем GPU серверы на помесячной оплате, но в ближайшее время все эти машины станут доступны и на почасовой оплате с полной автоматизацией их предоставления клиенту при заказе через API.
Заключение
Новые профессиональные видеокарты NVIDIA RTX A5000 и A4000 являются оптимальным решением для использования в GPU-серверах и позволяют выполнять сложные вычисления, производить быструю обработку больших массивов данных.
Переход на новую архитектуру Ampere позволил значительно увеличить производительность новых профессиональных видеокарт компании NVIDIA. Улучшенные тензорные ядра и ядра RT значительно улучшают качество и возможности трассировки лучей в реальном времени. Объем памяти в 16 Гб у NVIDIA RTX A4000 и 24 Гб у RTX A5000 позволяет обрабатывать большие массивы данных. Мостик NVLink для A5000 объединяет две карты в одну, что позволяет работать с 48Гб высокопроизводительной памяти.
Лицензия на драйверы NVIDIA для профессиональных GPU никак не ограничивает их использование в центрах обработки данных, в отличие от их игровых версий.
HOSTKEY рекомендует использовать современные выделенные и виртуальные GPU сервера для рендеринга сцен, транскодинга видео, обучения нейросетей и обработки данных уже обученными сетями. Если есть стабильный большой объем данных для обработки — аренда выделенных GPU серверов может на порядок повысить скорость обработки за те же деньги или сэкономить на инфраструктуре существенные финансовые ресурсы.
Для российских резидентов доступна оплата услуг хостинга в зарубежных дата-центрах в рублях на счет российской компании - банковскими картами, в том числе платежной системы МИР, банковскими переводами и другими способами, доступными на территории России.