Задачи, которые предстоит решать:
- Архитектирование современного data lake для хранения структурированных и неструктурированных данных от горнодобывающей техники
- Разработка real-time пайплайнов обработки MQTT сообщений
- Создание batch-процессов для агрегации и обогащения исторических данных
- Интеграция потоковой и пакетной обработки для создания единой картины данных
- Реализация схем обработки данных с учетом возможных разрывов связи в карьере
- Создание системы мониторинга качества данных и обнаружения аномалий
- Настройка и оптимизация Trino для федеративных запросов к различным источникам данных
- Интеграция Superset с data lake для создания self-service аналитики
- Разработка витрин данных для различных бизнес-направлений (операционные, финансовые, технические метрики)
- Создание каталога данных и метаданных для всех источников информации.
- Реализация политик управления жизненным циклом данных и архивирования
Мы ждем от вас:
- Оконченное высшее образование
- Опыт работы от 3х лет. Стек: Python, Apache Spark, kafka, mqtt, trino, iceberg, minio, clickhouse
- Бонусом будут инструменты для оркестрации ETL-процессов
Мы предлагаем:
- Работу в команде экспертов
- ДМС согласно политике компании
- Скидки от компаний партнеров, скидки на топливо
- Достойный уровень оплаты труда
- Формат работы: офис в Екатеринбурге, Октябрьская площадь, д. 7, возможен гибридный график после прохождения испыт. срока