ПРОЕКТ:
Мы — технологическая команда Совкомбанка, занимаемся разработкой интеллектуальной системы обработки документов на базе современных ML-решений. Наш продукт помогает автоматизировать работу с большими объемами финансовой и юридической документации, ускоряя и упрощая процессы для бизнеса и клиентов.
Что мы делаем:
Строим end-to-end ML-систему для анализа документов: классификация, извлечение ключевых атрибутов, распознавание подписей, печатей и структуры (layout detection).
Работаем с разнородными данными: сканы, PDF, таблицы, изображения.
Используем LLM, CV и NLP-модели, RAG и другие передовые подходы.
Создаем синтетические данные и улучшаем качество обработки через эксперименты.
Интегрируем решения в продуктовые сервисы, чтобы обеспечить реальную пользу бизнесу.
Почему у нас интересно?
Работаем с современным стеком.
Развиваем продукт с нуля — есть простор для идей и экспериментов.
Влияем на реальные бизнес-процессы крупного банка.
СТЕК:
Python, PyTorch, Git, KubeFlow, FastAPI, Kafka, Docker, Vllm
ОБЯЗАННОСТИ:
- Разработка моделей для обработки документов: OCR, NER, DocQA, парсинг структуры документа (layout detection)
- R&D новых подходов, проверка гипотез
- Создание синтетических данных
- Использование и адаптация современных CV и NLP SOTA-моделей
- Обработка разнородных документов (сканы, фото, PDF, таблицы, формы), включая структурированные и неструктурированные
- Написание воспроизводимого кода, оформление экспериментов в воспроизводимые пайплайны, включающие разметку и обработку данных Работа с LLM моделями, Prompt Engineering
- Эксперименты по повышению качества и сравнение разных подходов
- Взаимодействие с бизнес-подразделениями для уточнения требований и презентации решений
ТРЕБОВАНИЯ:
- Опыт работы в Machine Learning от 3 лет
- Успешный опыт выведения бизнес-решения в продакшн (умение с нуля создавать готовое бизнес-решение)
- Опыт работы с OCR/VL/CV моделями
- Опыт работы с LLM-моделями
- Опыт работы с RAG