Apache Airflow¶
В этой статье
Информация
Apache Airflow — это мощная и гибкая платформа для разработки, планирования и мониторинга задач управления потоками данных, которая может быть использована в широком спектре приложений: запуска скриптов для сбора, преобразования и загрузки данных из различных источников, планирования отправки email-рассылки, автоматизации тестирования и т.п.
Apache Airflow. Основные возможности¶
- Airflow использует Python для определения рабочих процессов, что делает их прозрачными, легко настраиваемыми и воспроизводимыми;
- Благодаря открытому API и широкому спектру операторов (operators), Airflow может интегрироваться с множеством технологий и инструментов;
- Web-интерфейс Airflow предоставляет интерактивный обзор состояния рабочих процессов, позволяя отслеживать выполнение задач и легко управлять ими;
- Встроенный планировщик Airflow позволяет запускать задачи в заданное время или с определённой периодичностью (например, каждый час, каждый день);
- Airflow автоматически управляет зависимостями между задачами, гарантируя выполнение работ в правильном порядке;
- Airflow позволяет разбивать большие задачи на более мелкие, управляемые модули, что упрощает разработку и отладку;
- Параллельное выполнение задач и поддержка распределенных вычислений ускоряют обработку больших объемов данных;
- Airflow автоматически перезапускает некорректно завершенные задачи, гарантируя стабильность рабочих процессов;
- Airflow автоматизирует рутинные задачи, освобождая время разработчиков для более важных задач.
Особенности сборки¶
ID | Совместимые ОС | VPS | BM | VGPU | GPU | Мин. ЦПУ (Ядер) | Мин. ОЗУ (Гб) | Мин. HDD/SDD (Гб) | Доступно |
---|---|---|---|---|---|---|---|---|---|
201 | Ubuntu 22.04 | + | + | + | + | 4 | 4 | 60 | Да |
- Доступ к панели управления:
https://airflow{Server_ID_from_Invapi}.hostkey.in
; - Время установки панели вместе с ОС занимает порядка 15 минут.
Примечание
Если не указано иное, по умолчанию мы устанавливаем последнюю релиз версию программного обеспечения с сайта разработчика или репозиториев операционной системы.
Начало работы после развертывания Apache Airflow¶
После оплаты заказа на указанную при регистрации электронную почту придет уведомление о готовности сервера к работе. В нем будет указан IP-адрес VPS, а также логин и пароль для подключения. Управление оборудованием клиенты нашей компании осуществляют в панели управления серверами и API — Invapi.
Данные для авторизации, которые можно найти или во вкладке Информация >> Тэги панели управления сервером или в присланном e-mail:
- Ссылка для доступа к панели управления Apache Airflow с веб-интерфейсом: в теге webpanel;
- Логин:
admin
; - Пароль: приходит в письме на вашу электронную почту при готовности сервера к работе после развертывания ПО.
Авторизация¶
По умолчанию заданы следующие параметры пользователя Admin:
- firstname:
admin
; - lastname:
admin
; - email:
[email protected]
.
Интерфейс командной строки доступен по команде airflow
.
В Debian 12 используется виртуальное окружение, активировать которое можно с помощью команды:
После чего CLI также будет доступен по команде airflow
.
Примечание
Подробная информация по основным настройкам Apache Airflow содержится в документации разработчиков.
Заказ сервера с Apache Airflow с помощью API¶
Для установки данного ПО с использованием API следуйте этой инструкции.