Проектировать, строить и поддерживать высокодоступную on-premise инфраструктуру на базе Kubernetes и bare-metal (включая суперкомпьютеры и системы NVIDIA DGX).
Разрабатывать и поддерживать надёжные CI/CD-пайплайны (например, GitLab CI, Jenkins) для автоматической сборки, тестирования и деплоя всех сервисов.
Управлять развёртыванием, масштабированием и эксплуатацией основного технологического стека, включая:
Бэкенд-микросервисы (FastAPI).
AI мульти-агентные системы и платформы для LLM-serving.
Кластеры распределённых вычислений (в частности Ray).
Системы объектного хранилища (в частности Minio).
Внедрять и поддерживать комплексные решения для мониторинга, логирования и алертинга (например, Prometheus, Grafana, ELK/Loki) для обеспечения здоровья и производительности систем.
Управлять оборудованием NVIDIA DGX, включая GPU-драйверы, CUDA и высокопроизводительные сети (например, Infiniband).
Автоматизировать развёртывание инфраструктуры и управление конфигурациями с помощью IaC-инструментов (например, Ansible, Terraform).
Тесно работать с AI- и Backend-командами, обеспечивая плавный и надёжный путь от R&D до продакшена.
Внедрять и поддерживать практики безопасности для on-premise среды, включая сетевые политики, контроль доступа и управление уязвимостями.
1+ год практического опыта в DevOps, SRE или аналогичной роли.
Экспертный уровень владения Kubernetes (K8s) и контейнерной экосистемой (Docker).
Подтверждённый опыт администрирования on-premise bare-metal серверных сред. Опыт работы с публичными облаками (AWS, GCP) будет плюсом, но on-premise экспертиза обязательна.
Сильный опыт работы с CI/CD-инструментами (например, GitLab CI, Jenkins, GitHub Actions).
Сильный опыт работы с инструментами Infrastructure as Code (IaC) (особенно Ansible, Terraform).
Глубокое понимание сетевых принципов (TCP/IP, балансировка нагрузки, файрволы, VPC).
Уверенное владение скриптингом и автоматизацией (например, Python, Bash).
Опыт работы со стэками мониторинга и логирования (например, Prometheus, Grafana).
Сильный опыт работы с MLOps-инструментами и платформами (например, KubeFlow, MLflow, Seldon Core, KServe).
Практический опыт управления NVIDIA GPU, CUDA и NVIDIA GPU Operator для K8s.
Прямой опыт развёртывания и эксплуатации Ray-кластеров.
Прямой опыт развёртывания и эксплуатации Minio-кластеров.
Опыт работы с высокопроизводительными сетями (например, Infiniband).
Опыт работы с распределёнными системами хранения (например, Ceph).