ЦРТ | Группа компаний

Data Scientist

Не указана
  • Санкт-Петербург
  • Полная занятость
  • Полный день
  • От 1 года до 3 лет
  • Python
  • PyTorch
  • Machine Learning
  • ML
  • Машинное обучение
  • Data Science
  • Английский — B2 — Средне-продвинутый

Наш проект - инновационная платформа, которая объединяет передовые технологии:

  • Генеративный AI – создание и обработка контента;
  • Компьютерное зрение – распознавание изображений и видео;
  • Умный поиск и анализ информации в реальном времени.

Мы ищем проактивных и увлеченных специалистов, готовых участвовать в разработке с самых ранних этапов.

Вас ждет:

  • Работа на переднем крае технологий совместно с научной командой;
  • Возможность влиять на архитектуру и развитие системы;
  • Динамичная команда единомышленников.


Что нужно делать:

  • Разработка и развитие пайплайнов подготовки датасетов, тестирования и дообучения NLP и LLM моделей
  • Разработка и развитие пайплайнов инференса NLP и LLM моделей в продакшене
  • Изучение публикации, мониторинг новых перспективных подходов
  • Генерирование гипотез, постановка и проведение экспериментов, систематизация и визуализация результатов исследования

Требуется:

  • Опыт работы в области Data Science от 2 лет
  • Уверенное владение Python и основными библиотеками (NumPy, Pandas, scikit-learn)
  • Опыт работы с библиотеками PyTorch, Transformers
  • Понимание основ алгоритмов машинного обучения, статистической обработки данных, классических подходов NLP
  • Понимание архитектур LSTM, Transformer, GPT, BERT
  • Знание подходов автопромптинга, Few shot learning, Function call, Structured output
  • Опыт работы с векторным поиском и RAG
  • Знание SQL
  • Опыт работы с Docker, Git
  • Владение английским языком на уровне чтения технической документации

Будет плюсом:

  • Опыт обучения адаптеров LLM (LoRA, QLoRA)
  • Опыт оптимизации инференса и сервинга LLM
  • Опыт квантизации, дистилляции моделей
  • Опыт работы с графами знаний
  • Опыт работы с методами дообучения RLHF, DPO, KTO
  • Знание фреймворков инференса trtllm, vllm, tgi, lmdeploy
  • Понимание архитектур MoE, multitoken prediction