Установка Ollama¶
В этой статье
Ollama - фреймворк для запуска и управления большими языковыми моделями (LLM) на локальных вычислительных ресурсах. Он обеспечивает загрузку и развертывание выбранной LLM и доступ к ней через API.
Внимание
Если вы планируете использовать GPU-ускорение работы с LLM, то в начале установите драйвера на видеокарту NVIDIA и CUDA.
Системные требования:
| Требования | Спецификация |
|---|---|
| Операционная система | Linux: Ubuntu 22.04 или выше |
| Оперативная память | 16 ГБ для запуска моделей размером 7B |
| Объем диска | 12 ГБ для установки Ollama и базовых моделей. Дополнительное пространство требуется для хранения данных моделей в зависимости от используемых моделей |
| Процессор | Рекомендуется использовать современный ЦП с не менее 4 ядрами. Для запуска моделей размером 13B рекомендуется ЦП с не менее 8 ядрами |
| Графический процессор(опционально) | GPU не требуется для запуска Ollama, но может улучшить производительность, особенно при работе с большими моделями. Если у вас есть GPU, вы можете использовать его для ускорения обучения пользовательских моделей. |
Примечание
Системные требования могу отличаться в зависимости от конкретных языковых моделей (LLMs) и задач, которые вы планируете выполнять.
Установка Ollama под Linux¶
Скачиваем и устанавливаем Ollama:
Для графических карт Nvidia можете добавить Environment="OLLAMA_FLASH_ATTENTION=1" для улучшения скорости генерации токенов.
-
Включаем сервис и запускаем его:
Ollama будет доступна по адресу http://127.0.0.1:11434 или http://<IP_адрес_сервера>:11434.
Обновление Ollama под Linux¶
Для обновления Ollama вам нужно заново скачать и установить ее бинарную сборку:
Примечание
Если доступа к Ollama нет, то возможно необходимо добавить в файл сервиса /etc/system.d/system/ollama.service следующие строки в секцию [Service]:
и перезапустить сервис командами:
Установка языковых моделей LLM¶
Список актуальных доступных языковых моделей вы можете посмотреть здесь.
Чтобы установить нужную модель, нажмите на ее название и на следующей странице выберите размер и тип модели. После этого скопируйте команду для установки из правого окна и запустите в окне командной строки/терминала:
Примечание
Рекомендуемая к установке модель отмечена тегом latest.
Внимание
Для обеспечения приемлемой производительности работы размер модели должен быть в два раза меньше объема ОЗУ сервера и ⅔ объема доступной видеопамяти на GPU. Например для модели размером в 8Гб необходимо 16Гб ОЗУ и 12 ГБ видеопамяти на GPU.
После скачивания модели, перезапустите сервис:
Подробнее об Ollama вы можете прочитать в документации разработчиков.
Переменные окружения¶
Установите эти переменные в сервисе Ollama как Environment="VARIABLE=VALUE".
| Переменная | Описание |
|---|---|
| OLLAMA_DEBUG | Выводить дополнительную информацию о отладке (например, OLLAMA_DEBUG=1) |
| OLLAMA_HOST | IP-адрес сервера ollama (по умолчанию 127.0.0.1:11434) |
| OLLAMA_KEEP_ALIVE | Время, в течение которого модели остаются загруженными в памяти (по умолчанию 5m) |
| OLLAMA_MAX_LOADED_MODELS | Максимальное количество загруженных моделей (по умолчанию 1) |
| OLLAMA_MAX_QUEUE | Длина очереди, определяет число запросов, которые могут находиться в ней и ждать своей очереди (512 по умолчанию) |
| OLLAMA_MODELS | Путь к каталогу с моделями |
| OLLAMA_NUM_PARALLEL | Максимальное количество параллельных запросов (по умолчанию 1) |
| OLLAMA_NOPRUNE | Не обрезать BLOB моделей при запуске |
| OLLAMA_ORIGINS | Список разрешенных Origins, через запятую |
| OLLAMA_TMPDIR | Директория для временных файлов |
| OLLAMA_FLASH_ATTENTION | При установке в 1 улучшает скорость генерации токенов на Mac с Apple Silicon и графических картах NVIDIA |
| OLLAMA_LLM_LIBRARY | Задание определенной библиотеки LLM, чтобы обойти автоматическое обнаружение (динамические библиотеки LLM [rocm_v6 cpu cpu_avx cpu_avx2 cuda_v11 rocm_v5]) |
| OLLAMA_MAX_VRAM | Максимальный объем используемой VRAM (OLLAMA_MAX_VRAM=<bytes>) |
| OLLAMA_NOHISTORY | При установке в 1 отключает историю во время выполнения Ollama |
| OLLAMA_SCHED_SPREAD | Запускать модели на всех доступных видеоадаптерах (по умолчанию 0) |
| OLLAMA_MULTIUSER_CACHE | Оптимизировать кэширование промта для сценариев с множеством пользователей |
| OLLAMA_CONTEXT_LENGTH" | Задать размер контекста ( по умолчанию равен 2048) |
| OLLAMA_NEW_ENGINE | Включить использование нового движка вместо llama.cpp |