Обязанности:
- Разработка модулей конвертации данных (XLSX, DOCX, PDF, HTML и др.) в текст
- Оптимизация и доработка существующих решений по обработке данных
- Интеграция разработанных модулей с внутренними сервисами и базами данных
- Работа с инструментами распознавания текста (OCR) для обработки сложных форматов
- Написание тестов и документации к разработанным модулям
- Участие в код-ревью и обсуждении архитектуры решений
- Опыт коммерческой разработки на Python от 2 лет
- Опыт работы с библиотеками для обработки различных форматов файлов (pandas, openpyxl, pdfminer, PyMuPDF, BeautifulSoup и др.)
- Знание принципов работы OCR (Tesseract, EasyOCR и пр.)
- Опыт работы с фреймворками: FastApi, Flask
- Понимание многопоточного и асинхронного программирования в Python
- Опыт работы с реляционными базами данных (PostgreSQL, MySQL)
- Навыки работы с системами контроля версий (Git)
- Опыт написания тестов (pytest, unittest)
- Будет плюсом:
- Опыт работы с брокерами сообщений (Kafka, RabbitMQ)
- Опыт работы с Kubernetes и Docker
- Опыт работы с NLP-библиотеками для предобработки текста (spaCy, NLTK, Transformers)