Установка Ollama¶

В этой статье

Установка Ollama под Linux

Обновление Ollama под Linux

Установка языковых моделей LLM

Переменные окружения

Ollama - фреймворк для запуска и управления большими языковыми моделями (LLM) на локальных вычислительных ресурсах. Он обеспечивает загрузку и развертывание выбранной LLM и доступ к ней через API.

Внимание

Если вы планируете использовать GPU-ускорение работы с LLM, то в начале установите драйвера на видеокарту NVIDIA и CUDA.

Системные требования:

Требования	Спецификация
Операционная система	Linux: Ubuntu 22.04 или выше
Оперативная память	16 ГБ для запуска моделей размером 7B
Объем диска	12 ГБ для установки Ollama и базовых моделей. Дополнительное пространство требуется для хранения данных моделей в зависимости от используемых моделей
Процессор	Рекомендуется использовать современный ЦП с не менее 4 ядрами. Для запуска моделей размером 13B рекомендуется ЦП с не менее 8 ядрами
Графический процессор(опционально)	GPU не требуется для запуска Ollama, но может улучшить производительность, особенно при работе с большими моделями. Если у вас есть GPU, вы можете использовать его для ускорения обучения пользовательских моделей.

Примечание

Системные требования могу отличаться в зависимости от конкретных языковых моделей (LLMs) и задач, которые вы планируете выполнять.

Установка Ollama под Linux¶

Скачиваем и устанавливаем Ollama:

curl -fsSL https://ollama.com/install.sh | sh

Для графических карт Nvidia можете добавить Environment="OLLAMA_FLASH_ATTENTION=1" для улучшения скорости генерации токенов.

Включаем сервис и запускаем его:

sudo systemctl daemon-reload
sudo systemctl enable ollama
sudo systemctl start ollama

Ollama будет доступна по адресу http://127.0.0.1:11434 или http://<IP_адрес_сервера>:11434.

Обновление Ollama под Linux¶

Для обновления Ollama вам нужно заново скачать и установить ее бинарную сборку:

curl -fsSL https://ollama.com/install.sh | sh

Примечание

Если доступа к Ollama нет, то возможно необходимо добавить в файл сервиса /etc/system.d/system/ollama.service следующие строки в секцию [Service]:

Environment="OLLAMA_HOST=0.0.0.0" 
Environment="OLLAMA_ORIGINS=*"

и перезапустить сервис командами:

systemctl daemon-reload
service ollama restart

Установка языковых моделей LLM¶

Список актуальных доступных языковых моделей вы можете посмотреть здесь.

Чтобы установить нужную модель, нажмите на ее название и на следующей странице выберите размер и тип модели. После этого скопируйте команду для установки из правого окна и запустите в окне командной строки/терминала:

ollama run llama3

Примечание

Рекомендуемая к установке модель отмечена тегом latest.

Внимание

Для обеспечения приемлемой производительности работы размер модели должен быть в два раза меньше объема ОЗУ сервера и ⅔ объема доступной видеопамяти на GPU. Например для модели размером в 8Гб необходимо 16Гб ОЗУ и 12 ГБ видеопамяти на GPU.

После скачивания модели, перезапустите сервис:

service ollama restart

Подробнее об Ollama вы можете прочитать в документации разработчиков.

Переменные окружения¶

Установите эти переменные в сервисе Ollama как Environment="VARIABLE=VALUE".

Переменная	Описание
OLLAMA_DEBUG	Выводить дополнительную информацию о отладке (например, `OLLAMA_DEBUG=1`)
OLLAMA_HOST	IP-адрес сервера ollama (по умолчанию `127.0.0.1:11434`)
OLLAMA_KEEP_ALIVE	Время, в течение которого модели остаются загруженными в памяти (по умолчанию `5m`)
OLLAMA_MAX_LOADED_MODELS	Максимальное количество загруженных моделей (по умолчанию `1`)
OLLAMA_MAX_QUEUE	Длина очереди, определяет число запросов, которые могут находиться в ней и ждать своей очереди (`512` по умолчанию)
OLLAMA_MODELS	Путь к каталогу с моделями
OLLAMA_NUM_PARALLEL	Максимальное количество параллельных запросов (по умолчанию `1`)
OLLAMA_NOPRUNE	Не обрезать BLOB моделей при запуске
OLLAMA_ORIGINS	Список разрешенных Origins, через запятую
OLLAMA_TMPDIR	Директория для временных файлов
OLLAMA_FLASH_ATTENTION	При установке в `1` улучшает скорость генерации токенов на Mac с Apple Silicon и графических картах NVIDIA
OLLAMA_LLM_LIBRARY	Задание определенной библиотеки LLM, чтобы обойти автоматическое обнаружение (динамические библиотеки LLM [`rocm_v6` `cpu` `cpu_avx` `cpu_avx2` `cuda_v11` `rocm_v5`])
OLLAMA_MAX_VRAM	Максимальный объем используемой VRAM (`OLLAMA_MAX_VRAM=<bytes>`)
OLLAMA_NOHISTORY	При установке в `1` отключает историю во время выполнения Ollama
OLLAMA_SCHED_SPREAD	Запускать модели на всех доступных видеоадаптерах (по умолчанию `0`)
OLLAMA_MULTIUSER_CACHE	Оптимизировать кэширование промта для сценариев с множеством пользователей
OLLAMA_CONTEXT_LENGTH"	Задать размер контекста ( по умолчанию равен `2048`)
OLLAMA_NEW_ENGINE	Включить использование нового движка вместо llama.cpp