
ЦРТ | Группа компаний
Data Scientist
Не указана
- Python
- PyTorch
- Machine Learning
- ML
- Машинное обучение
- Data Science
- Английский — B2 — Средне-продвинутый
Наш проект - инновационная платформа, которая объединяет передовые технологии:
- Генеративный AI – создание и обработка контента;
- Компьютерное зрение – распознавание изображений и видео;
- Умный поиск и анализ информации в реальном времени.
Мы ищем проактивных и увлеченных специалистов, готовых участвовать в разработке с самых ранних этапов.
Вас ждет:
- Работа на переднем крае технологий совместно с научной командой;
- Возможность влиять на архитектуру и развитие системы;
- Динамичная команда единомышленников.
Что нужно делать:
- Разработка и развитие пайплайнов подготовки датасетов, тестирования и дообучения NLP и LLM моделей
- Разработка и развитие пайплайнов инференса NLP и LLM моделей в продакшене
- Изучение публикации, мониторинг новых перспективных подходов
- Генерирование гипотез, постановка и проведение экспериментов, систематизация и визуализация результатов исследования
Требуется:
- Опыт работы в области Data Science от 2 лет
- Уверенное владение Python и основными библиотеками (NumPy, Pandas, scikit-learn)
- Опыт работы с библиотеками PyTorch, Transformers
- Понимание основ алгоритмов машинного обучения, статистической обработки данных, классических подходов NLP
- Понимание архитектур LSTM, Transformer, GPT, BERT
- Знание подходов автопромптинга, Few shot learning, Function call, Structured output
- Опыт работы с векторным поиском и RAG
- Знание SQL
- Опыт работы с Docker, Git
- Владение английским языком на уровне чтения технической документации
Будет плюсом:
- Опыт обучения адаптеров LLM (LoRA, QLoRA)
- Опыт оптимизации инференса и сервинга LLM
- Опыт квантизации, дистилляции моделей
- Опыт работы с графами знаний
- Опыт работы с методами дообучения RLHF, DPO, KTO
- Знание фреймворков инференса trtllm, vllm, tgi, lmdeploy
- Понимание архитектур MoE, multitoken prediction