СБЕР

Senior Data Engineer

Не указана

Москва
Полная занятость
Полный день
От 3 до 6 лет

Строим и масштабируем пайплайны для сбора, обработки и фильтрации огромных мультимодальных датасетов (текст-видео-аудио триплеты, инструкции для редактирования), критически важных для обучения наших моделей.

Обязанности

разработка ETL/ELT пайплайнов для сбора и предобработки web-scale данных (видео, аудио, текст, метаданные)
создание инфраструктуры для генерации синтетических инструкций для редактирования изображений/видео и синтетических описаний для изображений/видео/аудио
обучение и внедрение VLM - based фильтров (e.g., на основе Qwen VL и пр.) для автоматической оценки качества, релевантности и безопасности данных
построение системы дедупликации, кластеризации и балансировки мультимодальных датасетов
оптимизация хранения данных на удаленных хранилищах и потоковой передачи данных для ускорения обучения
масштабирование пайплайнов на распределенных кластерах.

Требования

экспертиза в построении data pipelines (Python, SQL)
опыт обработки мультимодальных данных (особенно видео/аудио), кодеки, фреймворки (FFmpeg, librosa)
уверенное применение CV/VLM для фильтрации данных (PyTorch, Hugging Face Transformers)
опыт работы с распределенными вычислениями (Spark/Ray/Dask) и облачными хранилищами (S3, GCS)
знание практик data versioning (DVC) и управления метаданными
навыки работы с генеративными AI-моделями; опыт создания AI-агентов и использования их в работе будет преимуществом.

Условия

ежегодный пересмотр зарплаты, годовую премию
корпоративный спортзал и зоны отдыха
уникальную систему обучения Сбера для профессионального развития
расширенный ДМС и льготное страхование для семьи
бесплатную подписку СберПрайм+, скидки на продукты компаний-партнеров
вознаграждение за рекомендацию друзей в команду Сбера
корпоративную пенсионную программу.

Источник вакансии

Вернуться, к списку вакансий