Разработка и поддержка ETL/ELT-процессов для DWH;
Реализация и сопровождение Apache Spark / PySpark jobs;
Пакетная обработка данных (batch processing);
Оркестрация и автоматизация пайплайнов с помощью Apache Airflow;
Очистка, трансформация и агрегация данных;
Оптимизация производительности Spark-задач (конфигурации, партиционирование, масштабируемость);
Проектирование и развитие моделей данных DWH;
Выбор и использование платформ хранения данных;
Управление миграциями схем БД с использованием Liquibase;
Работа с брокерами сообщений в рамках data-pipeline;
Поддержка и развитие существующих data-решений.
Опыт работы ETL / Data Engineer от 3 лет
Опыт работы с хранилищами данных (DWH)
Понимание принципов построения и эксплуатации data-платформ
Опыт промышленной эксплуатации data-pipeline
Умение работать в распределённых системах обработки данных