Перейти к содержанию

Apache Airflow

Информация

Apache Airflow — это мощная и гибкая платформа для разработки, планирования и мониторинга задач управления потоками данных, которая может быть использована в широком спектре приложений: запуска скриптов для сбора, преобразования и загрузки данных из различных источников, планирования отправки email-рассылки, автоматизации тестирования и т.п.

Apache Airflow. Основные возможности

  • Airflow использует Python для определения рабочих процессов, что делает их прозрачными, легко настраиваемыми и воспроизводимыми;
  • Благодаря открытому API и широкому спектру операторов (operators), Airflow может интегрироваться с множеством технологий и инструментов;
  • Web-интерфейс Airflow предоставляет интерактивный обзор состояния рабочих процессов, позволяя отслеживать выполнение задач и легко управлять ими;
  • Встроенный планировщик Airflow позволяет запускать задачи в заданное время или с определённой периодичностью (например, каждый час, каждый день);
  • Airflow автоматически управляет зависимостями между задачами, гарантируя выполнение работ в правильном порядке;
  • Airflow позволяет разбивать большие задачи на более мелкие, управляемые модули, что упрощает разработку и отладку;
  • Параллельное выполнение задач и поддержка распределенных вычислений ускоряют обработку больших объемов данных;
  • Airflow автоматически перезапускает некорректно завершенные задачи, гарантируя стабильность рабочих процессов;
  • Airflow автоматизирует рутинные задачи, освобождая время разработчиков для более важных задач.

Особенности сборки

  • Поддерживаемая операционная система: Ubuntu 22.04, Debian 11, Debian 12;
  • Доступ к панели управления: https://airflow{Server_ID_from_Invapi}.hostkey.in;
  • Время установки панели вместе с ОС занимает порядка 15 минут.

Начало работы после развертывания Apache Airflow

После оплаты заказа на указанную при регистрации электронную почту придет уведомление о готовности сервера к работе. В нем будет указан IP-адрес VPS, а также логин и пароль для подключения. Управление оборудованием клиенты нашей компании осуществляют в панели управления серверами и APIInvapi.

Данные для авторизации, которые можно найти или во вкладке Info >> Tags панели управления сервером или в присланном e-mail:

  • Ссылка для доступа к панели управления Apache Airflow с веб-интерфейсом: в теге webpanel;
  • Логин: admin;
  • Пароль: приходит в письме на вашу электронную почту при готовности сервера к работе после развертывания ПО.

Авторизация

По умолчанию заданы следующие параметры пользователя Admin:

  • firstname: admin;
  • lastname: admin;
  • email: admin@admin.org.

Интерфейс командной строки доступен по команде airflow.

В Debian 12 используется виртуальное окружение, активировать которое можно с помощью команды:

source /root/.local/pipx/venvs/apache-airflow/bin/activate

После чего CLI также будет доступен по команде airflow.

Примечание

Подробная информация по основным настройкам Apache Airflow содержится в документации разработчиков.

Заказ сервера с Apache Airflow с помощью API

Для установки данного ПО с использованием API следуйте этой инструкции.