Нам нужен специалист, способный извлекать структурированные данные из интернета в больших масштабах и обеспечивать их надёжную обработку.
Вы будете создавать инфраструктуру веб-скрейпинга, используемую в нашем ИИ-конвейере.
Это не про пару скриптов.
Это про отказоустойчивые, поддерживаемые системы, работающие с антибот-защитами, динамическими сайтами и продакшн-нагрузкой.
Что вы будете делать
Создавать и поддерживать крупномасштабные системы веб-скрейпинга на Python
Извлекать структурированные данные для ИИ и бэкенд-конвейеров
Работать с антибот-защитами, CAPTCHA и механизмами блокировки
Проектировать отказоустойчивую и сопровождаемую инфраструктуру
Работать самостоятельно, с полной ответственностью за результат
Что нам нужно
Сильный практический опыт веб-скрейпинга на Python в продакшне
Экспертиза в Selenium и работе с «враждебными» сайтами
Опыт обхода антибот-механизмов: прокси, заголовки, тайминг, сессии
Парсинг динамических сайтов: SPA, lazy-loading, аутентификация
Docker и контейнеризация
Опыт работы с PHP — существенный плюс
Умение быстро диагностировать и устранять проблемы
Что нам не нужно
Разработчики, работающие только со статическим HTML
Люди, которые сдаются при блокировках
Те, кто ожидает «чистые и стабильные» сайты-источники
Скрейпинг — это сложно.
Если вы не готовы преодолевать неопределённость, эта роль вам не подойдёт.