Работа с Airflow. DAG для автоматизации обработки данных и составления ежедневных отчетов. Используются данные из датасета с каталогом видеоигр.
Создать DAG, позволяющий автоматизировать выгрузку данных из выбранного датасета.
Python (pandas, numpy), Airflow.
Был составлен DAG из нескольких задач, в результате которого из датасета ежедневно собираются следующие данные:
- Какая игра была самой продаваемой в этом году во всем мире?
- Игры какого жанра были самыми продаваемыми в Европе?
- На какой платформе было больше всего игр, которые продались более чем миллионным тиражом в Северной Америке?
- У какого издателя самые высокие средние продажи в Японии?
- Перечислить все, если их несколько
- Сколько игр продались лучше в Европе, чем в Японии?
Финальный таск пишет в лог статистику по каждому пункту. DAG содержит 7 задач. Результат работы представлен в итоговом файле: videogames_sales_dag.py