Перейти к содержанию

Llama-3.3-70B

В этой статье

Информация

Llama-3.3-70B - высокопроизводительная языковая модель с 70 миллиардами параметров для локального развертывания через Ollama. Модель требует мощных вычислительных ресурсов с минимум 53 ГБ видеопамяти (NVIDIA A100/H100 или несколько потребительских GPU). Развертывание на Ubuntu 22.04 поддерживает распределенные вычисления и интеграцию с Open Web UI, обеспечивая полный контроль над данными и оптимизацию производительности.

Основные возможности Llama-3.3-70B

  • Высокопроизводительная архитектура: модель обладает 70 миллиардами параметров и оптимизирована для обработки сложнейших задач с непревзойденной точностью через современные технологии распределенных вычислений;
  • Интеграция с Open Web UI: современный веб-интерфейс доступен через порт 8080, обеспечивая полный контроль над данными, вычислительными ресурсами и процессами обработки;
  • Распределенные вычисления: продвинутая поддержка многокарточных конфигураций с автоматическим распределением нагрузки между несколькими GPU;
  • Масштабируемость: возможность горизонтального масштабирования путем добавления дополнительных GPU для повышения производительности;
  • Производительность: использование технологии LLAMA_FLASH_ATTENTION для оптимизации вычислений и ускорения обработки запросов;
  • Отказоустойчивость: система автоматического восстановления сервисов при сбоях обеспечивает непрерывность работы.
  • Примеры использования:
    • Клиентская поддержка: автоматизация ответов на вопросы пользователей;
    • Образование: создание обучающих материалов, помощь в решении задач;
    • Маркетинг: генерация рекламных текстов, анализ отзывов;
    • Разработка ПО: создание и документирование кода.

Особенности сборки

ID Совместимые ОС VPS BM VGPU GPU Мин. ЦПУ (Ядер) Мин. ОЗУ (Гб) Мин. HDD/SDD (Гб) Доступно
253 Ubuntu 22.04 - - + + 4 64 - Да
  • Время на установку 15-30 минут вместе с OS;
  • Сервер Ollama загружает и запускает LLM в памяти;
  • Open WebUI развертывается как веб-приложение, подключенное к серверу Ollama;
  • Пользователи взаимодействуют с LLM через веб-интерфейс Open WebUI, отправляя запросы и получая ответы;
  • Конфигурация распределенных вычислений для многокарточных систем;
  • Мониторинг состояния системы, включая температуру и производительность GPU;
  • Оптимизация параллельной работы нескольких графических ускорителей;
  • Все вычисления и обработка данных происходят локально на сервере. Администраторы могут настраивать LLM для специфических задач через инструменты OpenWebUI.

Системные требования и технические характеристики

  • Графический ускоритель (один из вариантов):
    • 2x NVIDIA A100 (48 ГБ видеопамяти каждая)
    • 1x NVIDIA H100
    • 3x NVIDIA RTX 4090 (24 ГБ видеопамяти каждая)
    • 3x AMD RX 7900 (24 ГБ видеопамяти каждая)
    • 3x NVIDIA A5000 (24 ГБ видеопамяти каждая)
  • Дисковое пространство: SSD достаточного объема для системы и модели;
  • Программное обеспечение: NVIDIA драйверы и CUDA;
  • Потребление видеопамяти: 53 ГБ при контексте 2K токенов;
  • Системный мониторинг: комплексная проверка состояния драйверов, контейнеров и температуры GPU.

Начало работы после развертывания Llama-3.3-70B

После оплаты заказа на указанную при регистрации электронную почту придет уведомление о готовности сервера к работе. В нем будет указан IP-адрес VPS, а также логин и пароль для подключения. Управление оборудованием клиенты нашей компании осуществляют в панели управления серверами и APIInvapi.

После перехода по ссылке из тега webpanel будет открыто окно авторизации.

Данные для авторизации, которые можно найти или во вкладке Информация >> Тэги панели управления сервером или в присланном e-mail:

  • Ссылка для доступа к панели управления Ollama c Open WebUI с веб-интерфейсом: в теге webpanel. Точная ссылка вида https:llama<Server_ID_from_Invapi>.hostkey.in приходит в письме, отправляемом при сдаче сервера.

После перехода по ссылке необходимо создать идентификатор пользователя и пароль в Open WebUI:

Внимание

После регистрации первого пользователя, система автоматически присваивает ему роль администратора. Для обеспечения безопасности и контроля над процессом регистрации, все последующие заявки на регистрацию должны быть одобрены администратором с его учетной записи.

Примечание

Для оптимальной работы рекомендуется использовать GPU с объемом видеопамяти больше минимального требования в 16 ГБ, что обеспечит запас для обработки больших контекстов и параллельных запросов. Подробная информация по основным настройкам Ollama и Open WebUI содержится в документации разработчиков Ollama и в документации разработчиков Open WebUI.

Примечание

Подробное описание особенностей работы с панелью управления Ollama c Open WebUI можно найти в статье AI-чат-бот на собственном сервере

Заказ сервера с Llama-3.3-70B с помощью API

Для установки данного ПО с использованием API следуйте этой инструкции.