МФК Саммит
Data Scientist
- Python
- PostgreSQL
- Numpy
- OpenCV
- FastAPI
- Apache Airflow
- CI/CD
- Docker
О компании
Мы — аккредитованная IT-компания «ИТ-Центр» (Summit Group), ТОП-15 МФО, >400 сотрудников, кредитный рейтинг «Эксперт РА» ruBB.
В отделе внедрения ИИ создаем практические AI-решения для бизнеса:
-
Сервис анализа телефонных переговоров (суммаризация, классификация нарушений/тональности, RAG)
-
Автоматический анализ видео собеседований (ключевые кадры, транскрипты, когортный анализ)
-
Аналитика просроченной задолженности (модели вероятности и срока дефолта, сегментация)
-
Автоматизация ручных действий и внедрение ИИ-агентов
Чем предстоит заниматься
-
Формулировать и проверять гипотезы, планировать эксперименты и оценку влияния на бизнес-метрики.
-
Собирать, очищать и обогащать данные (ETL), проектировать признаки, документировать датасеты.
-
Строить и обучать модели ML/DL (классификация/регрессия/ранжирование, anomaly/segmentation).
-
Решать NLP/LLM-задачи: суммаризация, классификация, извлечение сущностей, RAG/эмбеддинги.
-
Работать с временными рядами и риск-моделями для финтех-кейсов (PD/LGD/transition/скоринг).
-
Проводить offline-оценку (AUC/PR, F1, NDCG, uplift и др.), устраивать A/B/ABC-тесты.
-
Совместно с бэкендом оборачивать модели в сервисы (FastAPI), организовывать инференс, версионирование и мониторинг качества.
-
Вести ML-наблюдаемость (дрейф данных/предсказаний, алерты), планировать переобучение.
-
Поддерживать стандарты reproducibility (MLflow/DVC), экспериментов и документации.
Наш стек
-
Python 3.10+, pandas, NumPy, scikit-learn, XGBoost/LightGBM
-
PyTorch и/или TensorFlow; HuggingFace Transformers
-
SQL (PostgreSQL), аналитические запросы; Polars — как плюс
-
Airflow/Prefect, MLflow, DVC; LangChain/LangGraph, LangFuse
-
Векторный поиск: pgvector/Postgres, FAISS, Elasticsearch/OpenSearch
-
Whisper/STT/TTS, OpenAI API/LLM; OpenCV/ffmpeg для медиа — как плюс
-
Docker, Linux, GitLab CI/CD; мониторинг — Prometheus/Grafana/Sentry
Требования
-
3+ лет коммерческого опыта в Data Science, продакшен-цикл от данных до внедрения.
-
Сильный Python для анализа данных и продакшена: pandas/NumPy, типовой ML-стек.
-
Практика построения и валидации моделей (CV для текстов/аудио/видео — плюс).
-
Уверенный SQL (PostgreSQL), оптимизация запросов, аккуратность в данных.
-
Опыт продакшен-интеграций: FastAPI/инференс, Docker, базовый CI/CD.
-
Навыки офлайн-оценки и онлайн-экспериментов (A/B), интерпретация результатов.
-
Практический опыт с LLM (OpenAI API/аналоги/локальные модели): промпт-инжиниринг, RAG, оценка качества, дообучение, finetuning.
-
Коммуникация и продуктовый фокус: умеете объяснить решения, аргументировать выбор методов и метрик.
-
Опыт использования современных инструментов искусственного интеллекта.
Будет преимуществом
-
Финтех-контекст, опыт риск-моделей, требования безопасности и регуляторика (ЦБ РФ).
-
Опыт построения пайплайнов в Airflow/Prefect, фичесторы (Feast) и др.
-
Эксперимент-трекинг/наблюдаемость: MLflow/Weights & Biases, LangFuse.
-
Векторные БД и быстрый поиск (pgvector/FAISS), RAG-архитектуры.
-
Whisper/STT/TTS, OpenCV/ffmpeg; работа с шумными данными и длинным контекстом.
-
Kubernetes/Helm, продвинутая MLOps-практика — как плюс.
Что сделаешь в первые 90 дней
-
За 2–4 недели: аудит источников данных, сбор базовых метрик качества; baseline-модель/пайплайн оценки для одного из продуктов.
-
За 4–8 недель: улучшение метрик на 5–15% по офлайн-оценке; подготовка инференса и мониторинга; пилот в стейджинге.
-
За 8–12 недель: продакшен-внедрение улучшений или нового кейса (скоринг/риск или NLP-модуль), дашборды наблюдаемости, план переобучения.
Условия
-
Удаленная работа или гибрид; гибкий график, 5/2.
-
Зарплата всегда вовремя; прозрачная вилка, регулярный пересмотр.
-
Индивидуальный план развития, менторство, обмен опытом.
-
Обучение (курсы, корпоративная библиотека), компенсация ИИ-инструментов (Cursor, Copilot, Windsurf).
-
Минимум бюрократии, влияние на решения и техстек.
Как откликнуться
Отправьте резюме и ссылки на GitHub/портфолио/ноутбуки.
Коротко ответьте: «Какую модель/подход вы внедрили в прод и как улучшили ключевые метрики? Опишите данные, метрики и контроль эксперимента».
Теги: Python, pandas, NumPy, scikit-learn, XGBoost, LightGBM, PyTorch, TensorFlow, Transformers, NLP, LLM, RAG, LangChain, LangGraph, LangFuse, SQL, PostgreSQL, Airflow, MLflow, DVC, pgvector, FAISS, Elasticsearch, Whisper, OpenCV, ffmpeg, FastAPI, Docker, CI/CD, Prometheus, Grafana, Sentry, FinTech.