О проекте:
Мы реализуем проект по созданию аналитических кейсов и дашбордов для принятия управленческих решений на основе данных.
Работаем с 120+ интеграциями в рамках системы SDU, подключаем базы данных госорганов и квазигосударственного сектора, используем Apache Superset как основной инструмент визуализации, а также PostgreSQL, Clickhouse, Apache Airflow для обработки и интеграции данных.
Задачи:
Интеграция источников данных в SDU (Smart Data Ukimet) в соответствии с регламентами (Приложение 2 ТС).
Разработка и оптимизация ETL/ELT-пайплайнов с использованием Apache Airflow, Pentaho, Python, SQL.
Проектирование и настройка витрин данных нулевого и первого уровня (PostgreSQL, Clickhouse).
Обеспечение качества данных: валидация, проверка полноты, уникальности, актуальности.
Автоматизация обновления данных в аналитических кейсах.
Подготовка датафлоу, ER-диаграмм, спецификаций витрин и бизнес-правил.
Взаимодействие с бизнес-аналитиком и менеджером проекта для уточнения требований и источников.
Поддержка разработки визуализаций в Apache Superset (подключение к витринам, оптимизация запросов).
Технологический стек:
Базы данных: PostgreSQL, Clickhouse, MS SQL, MySQL.
ETL/ELT: Apache Airflow, Pentaho Data Integration, Python (pandas, SQLAlchemy).
Визуализация: Apache Superset (базовые навыки интеграции и оптимизации запросов).
Инструменты: Git, DBeaver, Knime, REST API, JSON, XML.
Методологии: работа с регламентами интеграции, проектирование DWH.
Требования:
Опыт работы Data-инженером или в смежных ролях от 2 лет.
Уверенное владение SQL (оптимизация запросов, индексы, партиционирование).
Опыт интеграции данных из различных источников (API, файлы, БД).
Навык построения ETL/ELT-процессов, автоматизации загрузок.
Опыт работы с PostgreSQL и одной из колонночных БД (Clickhouse будет плюсом).
Понимание архитектуры DWH и принципов построения витрин данных.
Базовые навыки работы с BI-платформами (Superset, Power BI, Tableau и др.).
Понимание принципов проверки качества данных.
Будет плюсом:
Опыт работы в государственных или квазигосударственных проектах.
Знание регламентов интеграции БД в SDU или аналогичные системы.
Навыки написания документации (датафлоу, схемы, методики расчета).
Опыт в автоматизации тестирования качества данных.
Опыт работы с большими объемами данных (Big Data, Kafka, Spark).