Привет! Мы — Genotek, молодая и современная medtech компания. Работаем с технологиями будущего: проводим исследования, которые помогают людям узнать всё про свои гены, происхождение и особенности здоровья.
Сейчас мы находимся в поиске опытного инженера данных, который возьмет на себя разработку и внедрение масштабируемой системы обработки событий (event processing pipeline). Вам предстоит построить отказоустойчивую платформу для сбора, трансформации и анализа данных.
Чем предстоит заниматься:
-
Мониторинг, оптимизация и масштабирование баз данных (MySQL, ClickHouse): анализ медленных запросов, настройка индексов, планирование и реализация партиционирования и шардинга.
-
Полный цикл разработки витрин данных: от проектирования и рефакторинга существующих до создания новых. Очистка сырых данных, дедубликация, оптимизация ETL-процессов.
-
Интеграция данных из внешних источников (Яндекс.Метрика, Roistat и др.) через API: обеспечение отказоустойчивости, обработка ошибок, retry-логика, валидация и обеспечение качества и полноты данных.
-
Разработка, поддержка и оптимизация сложных данных пайплайнов в Apache Airflow (создание новых DAG).
-
Подготовка и поддержание актуальной технической документации: схемы данных, дата-словари, описание витрин и ETL-процессов.
-
Участие в процессе разработки: code review, работа по Git Flow, внедрение и соблюдение стандартов кодирования.
-
Опыт коммерческой разработки в роли Data Engineer от 3-х лет (для Middle) и от 5-ти лет (для Senior).
-
Продвинутый SQL: глубокое понимание и большой опыт написания и оптимизации сложных запросов.
-
Опыт работы с СУБД:
-
MySQL: знания по оптимизации производительности (индексы, анализ execution plan).
-
ClickHouse: понимание специфики column-oriented БД
-
-
Сильный Python для ETL: опыт написания надежного и эффективного кода для данных пайплайнов (библиотеки: pandas, SQLAlchemy, requests и т.д.).
-
Глубокое знание Apache Airflow: опыт создания сложных, отказоустойчивых и идемпотентных DAG, использование сенсоров, хуков, XCom.
-
Опыт построения и поддержки DWH/витрин данных: понимание принципов dimensional modeling (звезда, снежинка), типов таблиц (факты, измерения).
-
Навыки работы с API: опыт интеграции с различными REST API (пагинация, ограничения, обработка ошибок, retry-механизмы).
-
Приверженность best practices: уверенная работа с Git (Git Flow), обязательный опыт проведения code review, понимание принципов CI/CD.
-
Опыт построения инфраструктуры данных с нуля (greenfield project).
-
Знание концепций и инструментов обеспечения Data Quality (валидация, мониторинг аномалий).
-
Опыт работы с контейнеризацией (Docker) и оркестрацией (Kubernetes).
-
Базовое понимание WEB-технологий (React/Angular) на уровне, достаточном для взаимодействия с фронтенд-разработчиками.
-
Знание облачных платформ (Yandex Cloud, AWS) и их сервисов для данных.
Что мы предлагаем:
-
Оформление по ТК РФ и его полное соблюдение (оплачиваемые отпуска, больничные), бонусы работы в аккредитованной IT-компании;
-
Формат работы: удалённый, но при желании можно ходить в офис в Москве или в Питере (в Питере можно ходить в офис в ИТМО или на Пионерской)
-
ДМС, занятия английским в Skyeng, психологические консультации от сервиса Youtalk и Генетический паспорт Genotek для всех сотрудников;
-
Дружную команду и уважительное отношение к инициативе