Мы делаем антифрод-систему для видеорекламы. Сейчас проект переходит от MVP к промышленной стадии, и нам нужен инженер, который объединит роли DevOps и MLOps. Мы ищем человека, способного с нуля построить надежную инфраструктуру в Яндекс.Облаке, обеспечить устойчивую работу системы под высокой нагрузкой и выстроить пайплайны для обучения и инференса ML-моделей.
Задачи:
-
Построение отказоустойчивой инфраструктуры в Яндекс.Облаке для приёма и обработки большого количества сетевых событий (до 5000 RPS)
-
Развёртывание и поддержка кластеров ClickHouse, Kafka, Airflow, Object Storage, настройка их безопасности, масштабирования и мониторинга
-
Организация и автоматизация всех ML-функций проекта — от регулярного перескоринга до запуска моделей по расписанию и в real-time
-
Поддержка и развитие пайплайнов на Python: парсинг, эвристики, скоринг, интеграция с хранилищем и фронтом
-
Настройка логирования, мониторинга, алертов и аварийного восстановления
Требования:
-
Опыт работы в DevOps и/или MLOps от 3 лет
-
Уверенное владение сетевой архитектурой, инфраструктурой облаков (VPC, балансировщики, NAT, сертификаты, приватные/публичные подсети)
-
Практический опыт настройки и эксплуатации ClickHouse, Kafka, Airflow, понимание их устройства и особенностей
-
Знание CI/CD-инструментов, умение разворачивать окружения с помощью Terraform, Helm или аналогичных решений
-
Навыки в Python на уровне поддержки и интеграции скриптов в пайплайны
❗️Будет плюсом, если:
-
Работали с ML-инфраструктурой: MLflow, DVC, ClearML, Metaflow
-
Есть опыт развёртывания production-инференса (через API, шины, облачные функции)
-
Понимаете особенности проектов в сферах антифрода, аналитики, риск-оценки
-
Работали с высоконагруженными системами (от 1000+ RPS)
Мы предлагаем:
-
Возможность построить всю инфраструктуру проекта с нуля — от сетей до скоринга
-
Работу в полностью удалённой команде без бюрократии и микроменеджмента
-
Высокую автономию и влияние на архитектуру и ключевые решения
-
Гибкий график, зрелую коммуникацию, прозрачность и доверие
-
Рост вместе с проектом и возможность вырасти до CTO-инфраструктуры