Bilim Group - это продуктовая EdTech-компания в Казахстане. Мы работаем с огромным масштабом изменений - со всей системой образования страны.
В нашей экосистеме сегодня более 20 цифровых продуктов и платформ, а также проекты, направленные на развитие казахского языка и цифровых образовательных решений.
В рамках OpenAI - Kazakh Language Data Program мы работаем с речевыми данными на казахском языке для обучения и оценки ASR и мультимодальных моделей.
Мы ищем Speech / ASR Data Manager, который будет отвечать за полный цикл работы с аудиоданными: от сбора и транскрибации до подготовки benchmark-наборов и анализа качества.
Что тебе предстоит делать:
Проектировать и поддерживать пайплайны сбора и обработки аудиоданных на казахском языке
Организовывать и контролировать процессы транскрибации: нормализация текстов, контроль качества (QA/QC), проверка соответствия аудио и транскриптов
Выявлять и удалять: низкокачественные аудиозаписи, шумные, обрезанные или некорректно выровненные данные, ошибочные транскрипты
Обеспечивать разнообразие спикеров: пол, возраст, регионы, диалектные особенности
Готовить и поддерживать JSON / JSONL-манифесты: аудиофайлы, транскрипты, метаданные, версии датасетов
Формировать и поддерживать ASR benchmark-наборы (dev / test splits)
Анализировать результаты оценки моделей: WER / CER, качество по доменам и группам спикеров, Участвовать в итерациях улучшения данных совместно с ML-командой
Мы ищем человека, у которого есть:
Свободное владение казахским языком (обязательно) и английским языком (рабочий уровень)
Понимание принципов: ASR-систем, машинного обучения, требований к данным для обучения и оценки моделей
Практический опыт работы с: речевыми датасетами, процессами транскрибации и QA, лингвистическими или speech-проектами
Знание аудиоформатов и структур датасетов
Опыт работы с JSON / JSONL: подготовка манифестов, валидация и очистка данных, проверка alignment между аудио и текстом
Опыт подготовки benchmark-ready ASR датасетов
Будет плюсом:
Python для обработки аудио и метаданных
Опыт работы с ASR-инструментами и библиотеками
Понимание пайплайнов обучения speech-моделей
Опыт анализа ошибок ASR
Что ты получаешь, присоединившись к нам:
Достойная зарплата — обсудим на встрече, индивидуально и честно.
Работу над значимым проектом по развитию казахского языка и технологий
Профессиональное развитие в сфере данных и языковых технологий
Прокачка знаний — доступ к курсам Kitap.kz, Bilimland.com, Coursera и другим образовательным платформам.
Языки — легко: изучай иностранные на Qlang.kz в удобном тебе ритме.
Уютный офис с зонами отдыха — кофе, чай, Xbox, настольный футбол и пространство для перезагрузки.
Ивенты, квизы, meet-up’ы и Тәтті күн — традиция вкусных угощений и веселых встреч.
Как мы работаем:
В офисе в Астане (Expo, Мангилик ел 55/13)
Полный рабочий день, 5/2 с 9:00 до 18:00
Официальный найм с первого дня, испытательный срок — 3 месяца.