Обязанности
Развивать компетенцию MLOps: формировать команду, выстраивать инженерные практики, обеспечивать стабильность
и масштабируемость инфраструктуры;
Поддерживать и развивать Data Lakehouse-инфраструктуру (S3 + Kubernetes) и сервисы Data Platform / AI Platform —
настройка, инсталляция, эксплуатация и обновления;
Разрабатывать и внедрять CI/CD-процессы для ML-моделей и data-сервисов (GitLab CI/CD, ArgoCD);
Поддерживать ML/AI-платформу: окружения для обучения и инференса, GPU-кластер, инструменты ClearML, Feast,
FastAPI, KServe;
Обеспечивать автоматизацию пайплайнов обучения, валидации и деплоя моделей;
Настраивать мониторинг и observability (Prometheus, Grafana, ELK; model/data drift, GPU-ресурсы);
Проводить R&D новых инструментов и технологий для повышения эффективности экспериментов и эксплуатации.
Требования
3+ лет опыта в MLOps / DevOps / Data Platform Engineering;
Уверенное владение Kubernetes, Docker, S3 (MinIO, Ceph, Ozone);
Опыт работы с ClickHouse, PostgreSQL, Trino и интеграцией аналитических систем;
Владение Python, Bash, Terraform, Helm для автоматизации и IaC;
Знание CI/CD-инструментов (GitLab CI/CD, ArgoCD);
Опыт работы с MLflow / Kubeflow / ClearML, Airflow, Spark/Flink;
Понимание принципов GPU-оркестрации, ресурс-менеджмента, SLA и мониторинга;
Опыт эксплуатации инфраструктурных и ML-решений в продакшене;
Участие в R&D и пилотах новых технологий (LLM, Milvus/Qdrant, MLOps-фреймворки).
Условия:
Работа в сильной и сплоченной технической команде;
Фокус на ценностях для пользователя и принятие решений на основе данных;
Свобода действий и возможность влиять на развитие бизнеса;
Гибридный или удаленный формат работы на выбор;
Официальное трудоустройство по ТК КЗ;
Возможность развивать личный бренд на конференциях, митапах и внутренних
событиях.