Разработка RL-агентов (DQN, PPO, SAC).
Симуляции, robotics, game AI.
Оптимизация reward functions, multi-agent RL.
Интеграция с Unity/Gym.
3+ года RL, Stable Baselines, Ray RLlib.
Python, опыт robotics.
Английский B2.
ЗП 1 600 000 – 2 800 000 ₸/мес на руки.
Удалёнка, NeurIPS.