Основные задачи:
1. Работа с текстовыми данными
Разработка и поддержка пайплайнов для подготовки и обработки текстов.
Автоматизация разбиения документов на логические или смысловые блоки.
Создание и настройка систем фильтрации, очистки и нормализации данных.
Обработка данных в различных форматах (TXT, PDF, DOC и др.).
2. Использование и настройка embedding-моделей
Применение моделей для получения векторных представлений текста.
Оптимизация эмбеддингов под задачи поиска и анализа.
Работа с векторными хранилищами (например, ChromaDB, FAISS).
Анализ и оценка качества полученных эмбеддингов.
3. Обучение и дообучение языковых моделей
Fine-tuning существующих LLM под конкретные задачи.
Подготовка и разметка обучающих выборок.
Разработка и внедрение методик для проверки качества моделей.
Мониторинг метрик и проведение валидации.
4. Разработка систем оценки качества
Проектирование механизмов для измерения релевантности результатов.
Определение и реализация метрик точности и полноты извлечённой информации.
Построение логики автоматической валидации и тестирования решений.
Требования:
Условия: