Иностранная IT-компания в поиске талантливых!
Оптимизация LLM (quantization, distillation).
TensorRT, ONNX Runtime, vLLM.
Edge deployment (Coral TPU, Jetson).
Latency/cost optimization.
3+ года inference, TensorFlow Serving.
C++/Python, опыт production LLM.
Английский B2.
ЗП 1 500 000 – 2 600 000 ₸/мес на руки.
GPU кластер, Inference Summit.