Bilim Group - это продуктовая EdTech-компания в Казахстане. Мы работаем с огромным масштабом изменений - со всей системой образования страны.
В нашей экосистеме сегодня более 20 цифровых продуктов и платформ, а также проекты, направленные на развитие казахского языка и цифровых образовательных решений.
В рамках OpenAI - Kazakh Language Data Program мы строим масштабные текстовые датасеты на казахском языке для обучения и оценки LLM и NLP-моделей.
Мы ищем Text Data Manager / NLP Data Specialist, в ОО «Международное общество «ҚАЗАҚ ТІЛІ» который возьмёт на себя ответственность за качество, структуру и воспроизводимость текстовых данных.
Что тебе предстоит делать:
Проектировать и поддерживать пайплайны сбора и обработки крупных текстовых корпусов на казахском языке
Работать с разнородными источниками данных:
public domain (книги, фольклор, СМИ);
академические и государственные публикации;
лицензированные текстовые платформы
Проектировать и контролировать процессы очистки текстов:
нормализация;
удаление дубликатов;
очистка шума и технических элементов
Вести учёт токенов, метаданных, доменных и тематических тегов
Следить за сбалансированностью данных по жанрам и тематикам
Участвовать в формировании и поддержке текстовых наборов для оценки качества (benchmark, evaluation datasets)
Анализировать данные и участвовать в регулярном обновлении датасетов
Мы ищем человека, у которого есть:
Свободное владение казахским и английским языками
Понимание базовых принципов:
машинного обучения;
работы с данными для LLM и NLP
Опыт работы с большими текстовыми массивами, корпусами данных или пайплайнами обработки
Понимание вопросов лицензирования, public domain и управления данными
Навыки работы с JSON:
проектирование схем (тексты, метаданные, лицензии, домены);
очистка, валидация и трансформация данных;
поиск и исправление ошибок в структуре данных
Внимательность к деталям, системное мышление, ответственность
Будет плюсом:
Опыт в лингвистических, исследовательских или data-проектах
Опыт работы с текстовой аналитикой или языковыми технологиями
Что ты получаешь, присоединившись к нам:
Достойная зарплата — обсудим на встрече, индивидуально и честно.
Работу над значимым проектом по развитию казахского языка и технологий
Профессиональное развитие в сфере данных и языковых технологий
Прокачка знаний — доступ к курсам Kitap.kz, Bilimland.com, Coursera и другим образовательным платформам.
Языки — легко: изучай иностранные на Qlang.kz в удобном тебе ритме.
Уютный офис с зонами отдыха — кофе, чай, Xbox, настольный футбол и пространство для перезагрузки.
Ивенты, квизы, meet-up’ы и Тәтті күн — традиция вкусных угощений и веселых встреч.
Как мы работаем:
В офисе в Астане (Expo, Мангилик ел 55/13)
Полный рабочий день, 5/2 с 9:00 до 18:00
Официальный найм с первого дня, испытательный срок — 3 месяца.