Обязанности:
- Выстраивание инфраструктуры инференса “под ключ” и контура сервинга моделей, поддержание оркестрации в Kubernetes;
- Выстраивание наблюдаемости и метрик качества, внедрение лучших практик SLO, SLI и т.д;
- Сотрудничество с командами разработки и исследований.
Требования:
- Опыт в аналогичной или близкой роли MLE/ MLOps/ ML Serving Engineer от 4+ лет;
- Глубокое знание Python, опыт на крупных NLP/ LLM проектах;
- Знакомство с продвинутыми инструментами для сервинга и инференса моделей (Triton Inference Server большой плюс);
- Глубокое понимание оптимизации производительности (большой плюс - работа с custom CUDA ядрами);
- Опыт выстраивания MLOps практик и подходов;
- Английский язык B1+ для командной коммуникации.
Условия:
- Гибридный режим работы с пакетом релокации;
- Оплачиваемый отпуск и медицинская страховка;
- Предоставление оборудования и инструментов.