Серверы
  • Готовые серверы
  • Конфигуратор
  • Серверы с 1CPU
  • Серверы с 2CPU
  • 4 поколение AMD EPYC
  • Серверы с AMD Ryzen и Intel Core i9
  • Серверы для хранения данных
  • Cерверы с портом 10 Гбит/c
  • Премиальные серверы
  • Серверы с большим объемом RAM
  • GPU
  • Распродажа
  • VPS
  • VPS / VDS серверы
  • Хостинг с ispmanager
  • GPU
  • Выделенные серверы с GPU
  • Виртуальные серверы с GPU
  • GPU-серверы с Nvidia RTX 5090
  • GPU-серверы с Nvidia RTX 6000 PRO
  • GPU-серверы с AMD Radeon
  • Распродажа
    Маркетплейс
    Colocation
  • Размещение серверов в дата-центре в Москве
  • Обслуживание серверов в других ЦОД
  • Прокат
    Услуги
  • Аренда сетевого оборудования
  • Защита L3-L4 от DDoS атак
  • IPV4 и IPV6 адреса
  • Администрирование серверов
  • Уровни технической поддержки
  • Мониторинг сервера
  • BYOIP
  • USB диск
  • IP-KVM
  • Трафик
  • Коммутация серверов
  • AI-чат-бот Lite
  • AI-платформа
  • О нас
  • Работа в HOSTKEY
  • Панель управления серверами и API
  • Дата-центры
  • Сеть
  • Тест скорости
  • Специальные предложения
  • Отдел продаж
  • Для реселлеров
  • Гранты для специалистов по Data Science
  • Гранты для научных проектов и стартапов
  • Документация и Частые вопросы
  • Новости
  • Блог
  • Оплата
  • Документы
  • Сообщите о нарушении
  • Looking Glass
  • 22.04.2025

    Больше 5090 - больше проблем? Тестируем связку из двух GPU NVIDIA

    server one
    HOSTKEY

    В предыдущей статье мы рассказывали, как тестировали сервер с одной RTX 5090. Теперь же мы решили установить в сервер две видеокарты RTX 5090. И это также вызвало у нас определённые проблемы, но результат того стоил.

    Вынули две видеокарты - поставили две видеокарты

    Для упрощения и скорости сперва мы решили заменить в сервере, где уже стояли две видеокарты 4090 на 5090. Конфигурация сервера получилась вот такая: Core i9-14900KF 6.0GHz (24 cores)/​192Gb/​2Tb NVMe SSD/​2xRTX 5090 32GB.

    Деплоим Ubuntu 22.04, ставим нашим магическим скриптом драйвера, которые установились без проблем, как и CUDA. nvidia-smi показывает две видеокарты. Блок питания кажется вытягивает до 1,5 киловатт нагрузки.

    AI-платформа: GPU-серверы с предустановленным ПО для ИИ и LLM модели

    Арендуйте GPU-сервер с профессиональными и игровыми графическими картами NVIDIA для вашего ИИ проекта. Предустановленное программное обеспечение готово к работе сразу после деплоя сервера.

    Заказть GPU-сервер

    Ставим ollama, качаем модель, запускаем и получаем... получаем, что у нас ollama работает на CPU и не видит видеокарты. Пробуем запускать ollama с непосредственным указанием устройств для CUDA через задание номеров видеокарт для CUDA:

    CUDA_VISIBLE_DEVICES=0,1 ollama serve

    Но также получаем аналогичный результат, когда ollama не хочет инициализироваться на двух видеокартах. Пробуем в режиме одной видеокарты, устанавливая CUDA_VISIBLE_DEVICE=0 и CUDA_VISIBLE_DEVICE=1 — такая же ситуация.

    Пробуем поставить Ubuntu 24.04 — вдруг новая CUDA 12.8 не очень хорошо работает в multi-GPU конфигурации на «старенькой» Ubuntu? И да, по отдельности у нас видеокарты заработали.

    Но при попытке запустить ollama на двух видеокартах получаем опять ошибку инициализации CUDA на них.

    Зная, что ollama может испытывать проблемы работы на нескольких GPU, пробуем PyTorch. Помним, что для RTX 50xx серии официального релиза PyTorch ещё нет, ставим совместимую версию (а точнее последнюю ночную сборку, совместимую с CUDA 12.8):

    pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu128
    Запускаем вот такой тест:
    import torch
    if torch.cuda.is_available():
    
      device_count = torch.cuda.device_count()
      print(f"CUDA is available! Device count: {device_count}")
    
      for i in range(min(device_count, 2)):  # Limit to 2 GPUs
        device = torch.device(f"cuda:{i}")
        try:
          print(f"Successfully created device: {device}")
          x = torch.rand(10,10, device=device)
          print(f"Successfully created tensor on device {device}")
        except Exception as e:
           print(f"Error creating device or tensor: {e}")
    else:
      print("CUDA is not available.")

    И получаем ошибку при работе двух карт и работу на каждой из видеокарт, если мы передаём переменную использования CUDA.

    Для надежности решаем установить и проверить CuDNN по этой инструкции и используем вот эти тесты: https://github.com/NVIDIA/nccl-tests.

    Тестирование также проваливался на двух видеокартах. После этого меняли видеокарты местами, райзеры, проверяли видеокарты по одной — результата ноль.

    Новый сервер и наконец-то тесты

    Решаем, что дело возможно в железе, которое “не тянет” две 5090. Переносим две видеокарты на другое железо: AMD EPYC 9354 3.25GHz (32 cores)/​1152Gb/​2Tb NVMe SSD/​PSU+2xRTX 5090 32GB. Ставим снова Ubuntu 22.04, обновляем ядро до 6-й версии, обновляем драйвера, CUDA, ollama, запускаем модели и…

    Аллилуйя! — у нас все заработало. Ollama масштабируется на две видеокарты, а значит должны работать и другие фреймворки. Проверяем на всякий случай и nccl и PyTorch.

    Тестирование NCCL:

    ./build/all_reduce_perf -b 8 -e 256M -f 2 -g 2

    Pytorch с тестом, указанным ранее:

    Тестировать нейросетевые модели, чтобы сравнить их с показателями двух видеокарт 4090 будем через связку Ollama и OpenWebUI.

    Для работы с 5090 также обновляем pytorch внутри docker контейнера OpenWebUI:

    docker exec -it open-webui bash
    pip install --upgrade --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu128

    DeepSeek R1 14 B

    Размер контекста 32768 токенов. Промт: “Write code for simple Snake game on HTML and JS”.

    Модель занимает одну видеокарту:

    Скорость отклика 110 токенов/сек, на конфигурации с двумя 4090 - 65 токенов/сек. Время отклика 18 и 34 секунды соответственно.

    DeepSeek R14 70B

    Ее мы тестировал при размере контекста 32K токенов. Эта модель уже занимает 64 Гб видеопамяти и, следовательно, не влезла в 48 гигабайт видеопамяти 2x4090. На двух 5090 это можно сделать даже с приличным размером контекста.

    Если же использовать контекст в 8K, то утилизация видеопамяти будет еще меньше.

    Тест проводили при 32K контекста и таком же промте “Write code for simple Snake game on HTML and JS”. Скорость отклика в среднем 26 токенов в секунду, запрос обрабатывается в районе 50-60 секунд.

    Если уменьшить размер контекста до 16K и, например, взять промт “Write Tetris on HTML” мы получим утилизация 49 Гб видеопамяти на обеих видеокартах

    Но скорость отклика будет такой же 26 токенов в секунду, как и время отклика в районе 1 минуты. Следовательно размер контекста влияет только на утилизацию видеопамяти.

    Генерация графики

    Далее тестируем генерацию графики в ComfyUI. Используем модель Stable Diffusion 3.5 Large в разрешении 1024x1024.

    В среднем видеокарта на данной модели тратит 15 секунд на изображение при утилизации 22.5 гигабайт видеопамяти на одной видеокарте. На 4090 при тех же параметрах затрачивается 22 секунды.

    Если задать генерацию в batch режиме (1024x1024 4 штуки), то суммарно у нас потратилось 60 секунд, так как ComfyUI, но работа не распараллеливается, но видеопамяти утилизирует уже больше.

    Подводим итоги

    Конфигурация из двух видеокарт NVIDIA RTX 5090 отлично себя показывает в задачах, где необходим большой объем видеопамяти, а программное обеспечение может распараллеливать задачи и утилизировать несколько GPU. По скоростям связка из двух 5090 также быстре 4090 и в некоторых задачах (например, в инференсе) может дать прирост до двух раз из-за более быстрой видеопамяти и скоростям работы тензорных блоков. Но за это приходится платить энергопотреблением и тем, что не всякая конфигурация сервера “потянет” связку даже из двух 5090. Ставить больше? Скорее всего нет, так как там правят бал уже специализированные GPU типа A100/H100.

    Другие статьи

    05.09.2025

    Обзор NetFlow-коллектора с визуализацией Akvorado: от развертывания до практического использования

    Мы проведем вас через все этапы работы с инструментом Akvorado для сбора и визуализации сетевого трафика. От знакомства с архитектурой до тонкостей развертывания — мы опираемся на наш собственный опыт, чтобы сделать процесс максимально понятным и эффективным.

    02.09.2025

    Хватит ли мне недорогой VPS? Сравнение VPS по производительности

    Стоит ли экономить на VPS или лучше взять тариф с запасом? Мы протестировали четыре недорогих конфигурации HOSTKEY и наглядно показали, для каких задач хватит минимального тарифа, а где разумнее сразу инвестировать в более мощный сервер.

    31.08.2025

    Foreman в изоляции: как мы построили отказоустойчивую и безопасную систему для массового деплоя ОС

    Делимся опытом трансформации нашей инфраструктуры: от децентрализованных экземпляров Foreman с публичными IP до защищённой, изолированной архитектуры с централизованным управлением через GitLab, повышенной безопасностью и легкой масштабируемостью.

    27.08.2025

    WordPress - путь от простой блог-платформы до лидирующей экосистемы на рынке CMS

    Как блог-платформа превратилась в главную систему управления контентом мира? История WordPress — это не просто перечисление его преимуществ, а рассказ о последовательности смелых решений, которые сделали его ключевой CMS.

    27.08.2025

    RTX PRO 6000 Blackwell Server Edition — как NVIDIA запутала всех с новым поколением своих профессиональных GPU

    NVIDIA выпустила сразу три версии RTX 6000 Blackwell — и именно Server Edition оказалась самой загадочной. Мы протестировали её в задачах LLM и генерации видео и сравнили с RTX 5090, A5000 и H100. Результаты вас удивят.

    Upload