03.06.2022

NVIDIA А5500: реальная мощь или фейслифтинг?

server one

Одной из новинок конференции GTC 2022 стала видеокарта RTX A5500, расширяющая ассортимент профессиональных графических ускорителей NVIDIA. Она построена на архитектуре Ampere с RT-ядрами второго поколения и тензорными — третьего. Видеокарта выделяется наличием 24 Гбайт памяти GDDR6 с функцией коррекции ошибок ECC и пиковой пропускной способностью 768 Гбайт/с.

В составе выполненного по технологии 8 нм графического чипа RTX A5500 присутствуют 10 240 ядер CUDA, 80 RT-ядер и 320 тензорных ядер. В компании NVIDIA отмечают, что производительность ускорителя в операциях одинарной точности (FP32) составляет 34,1 Тфлопс, а в операциях половиной точности (FP16) — 272,8 Тфлопс.

Все это, как говорится, на бумаге. Давайте посмотрим, на что реально способна видеокарта, благо возможность выбора машины с ней у Hostkey недавно появилась.

HOSTKEY
Арендуйте выделенные и виртуальные GPU серверы с профессиональными графическими картами NVIDIA RTX A5000 / A4000 в надежных дата-центрах класса TIER III в Москве и Нидерландах. Принимаем оплату за услуги HOSTKEY в Нидерландах в рублях на счет российской компании. Оплата с помощью банковских карт, в том числе и картой МИР, банковского перевода и электронных денег.

Энкодинг

Сравнивая RTX A5000 и RTX A4000, мы убедились, что ни рост частоты процессора, ни объем видеопамяти не оказали большого влияния на производительность блоков энкодинга видеокарт. Читатели также справедливо заметили, что мы использовали автоматическую настройку квантования (а следовательно, и качества получаемого видео) вместо готового пресета кодека h264, а также упустили важный для стриминга 60 fps энкодинг.

Повторим те же тесты на RTX A5500 и первым делом запустим энкодинг потока 1080p в 30 fps. Если взять результаты A5000, то она (как и A4000) осилила только 14 потоков.

A5500 показывает себя лучше и при 14 потоках явно имеет запас прочности (NVIDIA обещает до 16 потоков). При этом видеокарта потребляет меньшую на 5 Вт мощность и имеет более низкую температуру видеоядра (+35° C против +47° C у A5000), но видеопамяти задействует на 500 Мб больше.

Вывод nvidia-smi dmon -s pucm

gpu pwr gtemp mtemp sm mem enc dec mclk pclk fb bar1
Idx W C C % % % % MHz MHz MB MB
0 92 35 - 13 3 100 0 7600 1890 4141 32
gpu Idx 0
pwr W 92
gtemp C 35
mtemp C -
sm % 13
mem % 3
enc % 100
dec % 0
mclk MHz 7600
pclk MHz 1890
fb MB 4141
bar1 MB 32

Вывод ffmpeg дает нам следующее:

frame = 1051 fps = 32 q = 33.0 size = 9472 kB time = 00:00:34.93 bitrate = 2221.2 kbits/s speed = 1.07x

16 видеопотоков адаптер явно не вытягивает:

gpu pwr gtemp mtemp sm mem enc dec mclk pclk fb bar1
Idx W C C % % % % MHz MHz MB MB
0 96 44 - 13 4 100 0 7600 1905 4732 32
gpu Idx 0
pwr W 96
gtemp C 44
mtemp C -
sm % 13
mem % 4
enc % 100
dec % 0
mclk MHz 7600
pclk MHz 1905
fb MB 4732
bar1 MB 32

frame = 901 fps =28 q= 26.0 size = 7680 kB time = 00:00:29.93 bitrate = 2101.8 kbits/s speed = 0.917x

Начинается пропуск кадров, и картинка наполняется артефактами, так как кодек не справляется и автоматически ухудшает качество (параметр q при этом прыгает от 26 до 50).

Попробуем записать видео в высоком качестве. Задаем параметры, соответствующие high profile для кодека h264: он считается основным для цифрового вещания и видео на оптических носителях, особенно для телевидения высокой четкости (используется также для видеодисков Blu-Ray и вещания DVB HDTV).

Снова запускаем 14 потоков. Нагрузка на видеокарту возрастает, но карта держится:

gpu pwr gtemp mtemp sm mem enc dec mclk pclk fb bar1
Idx W C C % % % % MHz MHz MB MB
0 95 43 - 13 4 100 0 7600 1890 4141 32
gpu Idx 0
pwr W 95
gtemp C 43
mtemp C -
sm % 13
mem % 4
enc % 100
dec % 0
mclk MHz 7600
pclk MHz 1890
fb MB 4141
bar1 MB 32

Вывод ffmpeg:

frame = 968 fps = 32 q = 23.0 size = 7680 kB time = 00:00:32.16 bitrate = 1955.9 kbits/s speed = 1.07x

Пробуем 4K и 30 fps. Три потока в high profile карта осиливает без проблем:

frame = 257 fps = 37 q = 33.0 size = 2304 kB time = 00:00:08.46 bitrate = 2229.3 kbits/s speed = 1.2x

На четырех потоках она слегка пасует (как помните, A5000 при четырех потоках и автоматической настройке качества смогла выдать только 25–26 кадров с артефактами):

frame = 985 fps = 30 q = 37.0 size = 7424 kB time = 00:00:32.73 bitrate = 1858.0 kbits/s speed = 0.995x

Аппаратно имеем следующую картину:

gpu pwr gtemp mtemp sm mem enc dec mclk pclk fb bar1
Idx W C C % % % % MHz MHz MB MB
0 89 32 - 9 4 100 0 7600 1920 1659 11
gpu Idx 0
pwr W 89
gtemp C 32
mtemp C -
sm % 9
mem % 4
enc % 100
dec % 0
mclk MHz 7600
pclk MHz 1920
fb MB 1659
bar1 MB 11

По факту видеокарта работает на более высокой частоте, чем при энкодинге видео в FullHD, но основные ядра у нее не загружены (чип холодный, как и видеопамять).

Стриминг 4K при 60 кадрах в секунду ожидаемо просел до двух потоков, но мы использовали уже не мультфильм, а запись геймплея игры Doom Eternal, что создавало некоторые проблемы для аппаратного декодера. A5500 справилась, но на пределе, и без ложки дегтя не обошлось: энкодинг в AV1 аппаратно недоступен, а при вещании через VLC c Ubuntu 20.04 мы не смогли выдать 60 fps, поскольку поток постоянно резался до 30 кадров в секунду. Пришлось городить костыль из ffmpeg и сервера вещания:

frame = 240 fps = 61 q = 32.0 size = 2304 kB time = 00:00:09.48 bitrate = 3991.0 kbits/s speed = 1.03x

Вывод: энкодеры в RTX A5500 улучшили, и при равных условиях она превосходит по мощности A5000, выдавая субъективно лучшую картинку и работая на меньших частотах.

CUDA/RT/Тензорные ядра

А как с остальными блоками? Мы сравнили новинку с A5000 в нескольких тестах (подробнее о методиках можно прочитать в одной из предыдущих статей):

  1. Тест возможностей для майнинга (с помощью PhoenixMiner).
  2. Тест возможностей машинного обучения. Для этого мы провели на каждой из карт обучение нейросети на определении, кошка или собака изображена на фотографии, использовав для этого 100 эпох.
  3. Тест V-Ray 5 Benchmark на рендер как в связке CPU + GPU (CUDA-тест), так и чисто на GPU (тест RTX).
  4. Тест LuxMark в трех разных сценах, проверяющий скорость в OpenCL на GPU.
  5. Тест Blender в разных сценах в режиме OptiX с использованием всех возможностей RTX.

Итоговая таблица

NVIDIA GPU Скорость майнинга, MH ML test 100 epoch V-Ray 5 Benchmark (vpaths/vrays) LuxMark Blender
RTX A5000 86.66 9 min. 9s V-Ray GPU CUDA — 1381 vpaths

V-Ray GPU RTX — 2288 vrays
Lux ball — 74 795
Hotel — 15 794
Mic — 45 640
Monster — 2312
Junkshop — 1331
Classroom — 1148
RTX A5500 87.319 8 min. 59s V-Ray GPU CUDA — 1594

vpaths V-Ray GPU RTX — 2613 vrays
Lux ball — 78 554
Hotel — 16 219
Mic — 48 832
Monster — 2468
Junkshop — 1388
Classroom — 1223
NVIDIA GPU RTX A5000 RTX A5500
Mining speed, MH 86.66 87.319
ML test 100 epoch 9 min. 9s 8 min. 59s
V-Ray 5 Benchmark (vpaths/vrays) V-Ray GPU CUDA — 1381 vpaths

V-Ray GPU RTX — 2288 vrays
V-Ray GPU CUDA — 1594

vpaths V-Ray GPU RTX — 2613 vrays
LuxMark Lux ball — 74 795
Hotel — 15 794
Mic — 45 640
Lux ball — 78 554
Hotel — 16 219
Mic — 48 832
Blender Monster — 2312
Junkshop — 1331
Classroom — 1148
Monster — 2468
Junkshop — 1388
Classroom — 1223

RTX A5500 лучше показывает себя в рендеринге, но тут все зависит от оптимизации: в V-Ray 5 мы имеем отрыв в 13–14%, в LuxMark — 5–7%, похожие цифры в 5–7% и в Blender. С учетом погрешности выдаваемых «попугаев» в пару процентов в зависимости от прогона, итоговый прирост производительности не сильно впечатляет.

В машинном обучении A5500 быстрее минимум на 15%, а вот для майнеров будет неприятным сюрпризом практически одинаковый хэшрейт у обеих карт. Отметим, впрочем, что решение позиционируется производителем для профессионалов в графике и нейросетях.

Выводы

Увы, чуда не случилось и реальный прирост производительности составляет 5–10% в зависимости от выполняемой задачи, а в случаях майнинга и энкодинга прироста не наблюдается. В плюсах имеем меньшее энергопотребление, лучшее охлаждение за счет меньшего тепловыделения видеочипа, а также больший объем видеопамяти, что должно положительно сказаться на интенсивно использующих ее задачах. Стоит ли это потраченных денег, решать покупателю, а у нас вы можете заказать выделенный сервер с NVIDIA RTX A5500, если захотите изучить новинку самостоятельно.

Арендуйте выделенные и виртуальные GPU серверы с профессиональными графическими картами NVIDIA RTX A5000 / A4000 в надежных дата-центрах класса TIER III в Москве и Нидерландах. Принимаем оплату за услуги HOSTKEY в Нидерландах в рублях на счет российской компании. Оплата с помощью банковских карт, в том числе и картой МИР, банковского перевода и электронных денег.

Дригие статьи

14.06.2022

Многопоточный энкодинг: переплатить вдвое или уйти на «встройку»?

Можно ли кратно увеличить производительность с профессиональной видеокартой NVIDIA RTX A5000, которая стоит в два раза дороже?

11.05.2022

Интеграция FreeIPA с Active Directory

Рассказываем, как мы интегрировали FreeIPA с Active Directory, чтобы управлять офисными машинами с Windows и оборудованием Cisco Systems.

11.05.2022

Apache Guacamole и взаимодействие с API: реальный кейс использования oVirt

Рассказываем как удаленно управлять оборудованием Dell с помощью встроенной в DRAC консоли VNC.

10.05.2022

Тестируем «космические» технологии: насколько эффективно пассивное охлаждение серверов?

Специалисты HOSTKEY завершили пилотное внедрение альтернативной разработки компании «Теркон» — создателя систем охлаждения для космических аппаратов.

28.04.2022

10 простых шагов: мигрируем с CentOS 8 на RockyLinux или AlmaLinux

Пошаговая инструкция по переходу на RockyLinux или AlmaLinux — популярные бесплатные дистрибутивы, бинарно совместимые с RedHat Enterprise Linux (RHEL).

HOSTKEY Выделенные серверы в Европе, России и США Готовые выделенные серверы и серверы индивидуальных конфигураций на базе процессоров AMD, Intel, карт GPU, Бесплатной защитой от DDoS -атак и безлимитный соединением на скорости 1 Гбит/с 30
4.3 48 48
Upload