Перейти к содержанию

CogVideoX-5b

В этой статье

Информация

CogVideoX-5b — это модель для генерации видео с использованием технологий искусственного интеллекта, доступный через интерфейс Huggingface Space. Архитектура основана на когнитивных моделях и трансформерах для создания визуального контента.

CogVideoX-5b. Основные возможности

  • Генерация видео на основе текста — преобразует текстовые описания в качественные видеофрагменты с высокой степенью смысловой и визуальной согласованности;
  • Поддержка различных разрешений и форматов — возможность создания видео в различных соотношениях сторон и разрешениях для разных целей использования;
  • Когнитивное понимание контекста — улучшенная интерпретация запросов пользователя благодаря предобученным языковым моделям;
  • Градио интерфейс — удобный веб-интерфейс для взаимодействия с моделью без необходимости программирования;
  • Улучшение качества видео — встроенные модели для увеличения разрешения и частоты кадров (RIFE);
  • Настраиваемые параметры генерации — возможность тонкой настройки стиля, скорости анимации и других характеристик видео;
  • Масштабируемость — эффективная работа на GPU с поддержкой параллельных вычислений;
  • Открытый исходный код — доступность кода и весов модели для исследовательского сообщества и разработчиков.

Особенности сборки

ID Совместимые ОС VPS BM VGPU GPU Мин. ЦПУ (Ядер) Мин. ОЗУ (Гб) Мин. HDD/SDD (Гб) Доступно
272 Ubuntu 22.04 + + + + 4 32 50 Да
  • Время на установку 15-30 минут вместе с OS.
  • Системные требования: для оптимальной производительности рекомендуется не менее 24 ГБ видеопамяти (VRAM) на GPU.
    • SAT BF16: 76GB видеопамяти;
    • diffusers BF16: от 10GB видеопамяти;
    • diffusers INT8 (torchao): от 7GB видеопамяти;
    • Многокарточный режим (BF16): примерно 24GB на каждую GPU при использовании diffusers.
  • Поддерживаемые разрешения видео: базовое разрешение: 1360 × 768;
  • Количество кадров: должно соответствовать формуле 16N + 1, где N ≤ 10 (по умолчанию 81 кадр);
  • Частота кадров: 16 кадров в секунду;
  • Длительность видео: 5-10 секунд;
  • Рекомендуемая точность: BF16 (также поддерживаются FP16, FP32, FP8*, INT8; не поддерживается INT4);
  • Скорость генерации (50 шагов): ~1000 секунд на NVIDIA A100, ~550 секунд на NVIDIA H100.
  • Предустановленные зависимости:
    • Python 3.9
    • python3.9-venv (инструмент для создания изолированных Python-окружений)
    • python3.9-dev (заголовочные файлы и библиотеки для разработки)
    • python3-pip (менеджер пакетов Python)
    • NVIDIA драйверы
    • nvidia-docker2
    • docker.io
    • nginx-certbot
    • git
    • curl
    • wget
  • Рабочий каталог проекта: /opt/CogVideo.

Начало работы после развертывания CogVideoX-5b

После оплаты заказа на указанную при регистрации электронную почту придет уведомление о готовности сервера к работе. В нем будет указан IP-адрес VPS, а также логин и пароль для подключения. Управление оборудованием клиенты нашей компании осуществляют в панели управления серверами и APIInvapi.

Данные для авторизации, которые можно найти или во вкладке Информация >> Тэги панели управления сервером или в присланном e-mail:

  • Ссылка для доступа к панели управления CogVideoX-5b с веб-интерфейсом: в теге webpanel;
  • Логин и Пароль: приходят в письме на вашу электронную почту при сдаче сервера.

Стартовое меню CogVideoX-5b

После перехода по ссылке из тега webpanel будет открыто стартовое меню CogVideoX.

Для генерации необходимо выполнить следующий алгоритм действий:

  1. Обратите внимание на предупреждение: этот демонстрационный инструмент предназначен только для академических исследований и экспериментального использования.

  2. Если пространство слишком загружено, вы можете создать личную копию, нажав кнопку "Duplicate this Space".

Ввод данных

  1. У вас есть два варианта ввода данных (нельзя использовать одновременно):

    • I2V: ввод изображения (нельзя использовать одновременно с видео);
    • V2V: ввод видео (нельзя использовать одновременно с изображением).
  2. Введите текстовый запрос (prompt) в соответствующее поле. Ограничение — менее 200 слов.

  3. Опционально: нажмите кнопку Enhance Prompt для улучшения вашего запроса с помощью GLM-4 Model, который улучшит ваш оригинальный текст.

Настройка параметров

  1. Введите значение для Inference Seed:

    • Положительное число для конкретного сида. Когда вы вводите положительное число (например, 42, 123, 1000), система использует это число как отправную точку для генератора случайных чисел, что обеспечивает воспроизводимость результатов. Если вы используете один и тот же сид с тем же промптом и настройками, вы получите одинаковый или очень похожий результат при следующей генерации;
    • -1 для случайного сида. Каждая генерация будет уникальной, даже если вы используете тот же самый промпт и настройки.
  2. Выберите дополнительные настройки (по желанию):

    • Super-Resolution: активируйте для повышения разрешения (720 × 480 → 2880 × 1920)
    • Frame Interpolation: активируйте для увеличения частоты кадров (8fps → 16fps)
  3. Обратите внимание, что в демо используются:

    • RIFE для интерполяции кадров;
    • Real-ESRGAN для повышения разрешения (Super-Resolution).
  4. Нажмите кнопку Generate Video в нижней части экрана.

  5. Дождитесь завершения генерации — результат будет отображен в правой части интерфейса.

Примечание

Подробная информация по использованию CogVideoX-5b содержится в официальной документации проекта.

Заказ сервера с CogVideoX-5b с помощью API

Для установки данного ПО с использованием API следуйте этой инструкции.