Ищем Inference инженера в международную продуктовую AI-компанию, которая уже более 4 лет разрабатывает приложение для редактирования фото и видео на базе компьютерного зрения и искусственного интеллекта. Продукт активно растёт, используется пользователями в США и Европе, а команда работает над тем, чтобы сложные AI-модели работали быстро и стабильно в реальном продукте.
Чем предстоит заниматься:
-
Оптимизировать инференс нейросетей в продакшене: искать узкие места, измерять производительность, ускорять работу моделей
-
Адаптировать и оптимизировать модели для запуска на мобильных устройствах (latency, потребление памяти, батарея, стабильность)
-
Улучшать серверный инференс: повышать пропускную способность и снижать стоимость вычислений
-
Работать совместно с ML-исследователями над архитектурой моделей с учётом их эффективности в реальном использовании
-
Внедрять готовые решения и, при необходимости, разрабатывать кастомные оптимизации под конкретные сценарии
Кого мы ищем:
-
Коммерческий опыт оптимизации инференса нейросетей (mobile / edge / server)
-
Глубокий практический опыт хотя бы с одним из инструментов: Core ML / TFLite / ONNX Runtime / TensorRT или низкоуровневые технологии: Metal / Vulkan / OpenCL / OpenGL / CUDA / Triton
-
Понимание архитектуры GPU / NPU и принципов их работы
-
Опыт применения техник оптимизации инференса.
-
Будет плюсом: Опыт on-device inference (особенно iOS), опыт работы с моделями компьютерного зрения (фото / видео)
Что предлагает компания:
-
Гибридный график работы в Тбилиси (помощь по релокации предоставляется);
-
Конкурентный доход (вилка обсуждается индивидуально);
-
Возможность работать с реальными AI-продуктами, которые используются сотнями тысяч пользователей ($50M ARR and 250K+ пользователей);
-
Работа в сильной инженерной команде в быстрорастущем стартапе, сотрудники компании имели опыт работы в топ-компаниях отрасли, таких как Lensa, Picsart, Viber, AIRI, Yandex.