On-prem GPU-кластер для training/R&D (8× NVIDIA H200, 2 TB RAM/node, HPE, Slurm, Lustre, InfiniBand).
Ищем инженера в полное ownership, который сам спроектирует и выстроит архитектуру эксплуатации: стандарты, наблюдаемость, безопасность, производительность.
Мы строим ML-платформу практически с нуля и можем предложить максимальную свободу по решениям — важно, чтобы платформа работала и была удобной для ML-команды.
Ближайшие задачи:
Требования:
Будет плюсом: