Проектирование и разработка архитектуры корпоративного хранилища данных (КХД) из различных источников данных;
Создание, оптимизация и поддержка многослойной архитектуры DWH;
Разработка и сопровождение ETL/ELT процессов с использованием
Python,SQL и Airflow;
Проектирование и реализация пайплайнов обработки данных с учетом требований производительности и масштабируемости;
Оркестрация процессов обработки данных — написание, оптимизация и поддержка DAG в Apache Airflow;
Интеграция данных из различных источников: реляционных БД,
API, файловых систем, потоковых источников;
Работа с SQL базами данных (PostgreSQL,Clickhouse) — проектирование схем,
оптимизация запросов;
Разработка и поддержка API для доступа к данным и интеграции систем;
Настройка и поддержка конвейеров данных с использованием
Docker и контейнеризации.
Высшее техническое образование (информационные технологии, математика, физика или смежные специальности);
Опыт работы инженером данных или в смежной роли не менее 3-х лет;
Уверенное знание Python для разработки ETL/ELT процессов (pandas,requests,
библиотеки для работы с БД);
Опыт проектирования и работы с многослойными архитектурами хранилищ данных(DWH);
Опыт работы с Kubernetes для оркестрации контейнеров;
Знание Greenplum или других MPP систем;
Опыт работы с инструментами визуализации данных (Power BI, Tableau,Qlik
Sense,Superset);
Опыт построения real-time/near real-time пайплайнов обработки данных.