OGPT — технологическая it-компания, ориентированная на создание и внедрение передовых решений в области искусственного интеллекта и физико-математического моделирования в производственные процессы нефтегазодобычи. Мы разрабатываем уникальные продукты, которые помогают бизнесу значительно повышать свою эффективность, улучшать принятие решений и автоматизировать процессы. Наши технологии уже сегодня позволяют компаниям достигать выдающихся результатов, используя возможности искусственного интеллекта.
В OGPT мы стремимся создавать инновационную среду, где каждый сотрудник может раскрыть свой потенциал, применяя свои знания и навыки для решения реальных и амбициозных задач. Мы ищем людей, которые готовы не только работать, но и развиваться вместе с нами, внося свой вклад в создание высококачественных продуктов, которые меняют будущее.
Если вы хотите работать в динамичной и поддерживающей команде, где ценится креативность, экспертиза и стремление к совершенству, OGPT — это место для вас. Мы уверены, что только вместе, с лучшими специалистами, можно достигать высоких целей и воплощать инновации в жизнь.
И сейчас мы ищем Data Engineer для направления разработки систем, направленных на моделирование и оптимизацию процессов добычи нефти и газа.
Обязанности:
- Проектирование, реализация и поддержка ETL/ELT пайплайнов:
- автоматизация процесса инжеста больших объемов данных с физических носителей (HDD) в Data Lake (MinIO). Включая валидацию, каталогизацию, обработку ошибок;
- разработка пайплайнов для обработки сырых данных (включая обработку данных временных рядов) и загрузки структурированных/агрегированных данных в аналитические СУБД (ClickHouse, PostgreSQL);
- Управление хранилищами данных:
- администрирование, оптимизация, масштабирование и мониторинг объектного хранилища MinIO S3 (с учетом роста);
- управление жизненным циклом данных.
- Администрирование и оптимизация баз данных:
- проектирование схем данных, партиционирование, индексация, оптимизация запросов в ClickHouse и PostgreSQL для обеспечения высокой производительности при работе с большими объемами данных;
- обеспечение резервного копирования, восстановления и мониторинга состояния БД.
- Обеспечение качества и доступности данных:
- разработка механизмов проверки качества данных;
- обеспечение своевременной доступности подготовленных данных для нескольких команд аналитиков (Python, MATLAB).
- Разработка и поддержка «Лаборатории данных»:
- активное участие в проектировании и реализации механизмов симуляции/воспроизведения потоков телеметрии для среды разработки и тестирования аналитиков.
- Взаимодействие с командами:
- тесная работа с командами аналитиков для понимания их требований к данным и форматам;
- взаимодействие с DevOps по вопросам инфраструктуры для данных-пайплайнов и хранилищ;
- сотрудничество с Backend/Edge разработчиками по вопросам интеграции данных.
- Автоматизация и мониторинг:
- внедрение мониторинга для данных-пайплайнов, хранилищ и баз данных;
- автоматизация рутинных задач по управлению данными.
- Документирование: ведение документации по архитектуре данных, пайплайнам, схемам БД.
Требования:
- Опыт работы Data Engineer'ом от 3-5 лет;
- Сильные навыки программирования на Python для разработки ETL/ELT пайплайнов;
- Глубокое знание SQL и опыт оптимизации сложных запросов;
- Подтвержденный опыт работы с большими объемами данных;
- Практический опыт работы с NoSQL (ClickHouse, MongoDB и прочие) и реляционными (PostgreSQL) базами данных на уровне администрирования и оптимизации;
- Опыт работы с распределенными объектными хранилищами (S3 / MinIO);
- Опыт проектирования и построения масштабируемых данных-пайплайнов с использованием инструментов оркестрации (Airflow, Prefect, Dagster или аналоги) или кастомных решений;
- Понимание концепций Data Lake, Data Warehouse, ETL/ELT;
- Опыт работы в среде Linux.
Будет плюсом:
- Опыт работы с промышленными данными / IIoT / данными временных рядов;
- Опыт работы с нестандартными процессами инжеста данных (например, с физических носителей);
- Опыт работы с MATLAB данными или интеграции с MATLAB;
- Знакомство с MLOps практиками и инструментами (MLflow, Kubeflow и прочие);
- Опыт работы с брокерами сообщений (Kafka, RabbitMQ);
- Опыт работы с Docker и Kubernetes;
- Знание принципов обеспечения качества данных (Data Quality);
- Технологический стек (с чем предстоит работать):
Python, SQL, ClickHouse, MongoDB ,PostgreSQL, MinIO (S3), Linux, Airflow/Prefect/Dagster (или аналоги), Docker, GitLab CI, Bash, MATLAB.
Условия:
- Интересные задачи и возможность профессионального роста;
- Высокий уровень дохода (мы готовы обсуждать условия дохода с каждым кандидатом по итогам личной встречи);
- Удаленная работа;
- ДМС;
- Профессиональный и позитивный коллектив;
- Возможность влиять на архитектуру и развитие продукта.
Ждем ваши резюме!