Ozon

Старший Devops инженер, Группа Hadoop ops

Не указана
  • Москва
  • Полная занятость
  • Полный день
  • От 3 до 6 лет
  • Linux
  • Python
  • Bash
  • Hadoop
  • CI/CD
  • платформа данных

Большой кластер Hadoop c мульти-ЦОД архитектурой, устойчивый к потере целого ЦОД - собираем и раскатываем сами. YARN-кластер с тысячами Spark-приложений в день.

Мы не сильно обросли legacy, есть возможность определять правила игры, выбирать технологии и подходы.
Есть широкий спектр задач на выбор — от повседневной эксплуатации до творческих rnd и BigData forensics.

Мы адепты концепции Everything as Code: минимум ручных действий, максимум автоматизации. Используем лучшие практики для построения внутренней экосистемы, позволяющей поддерживать множество проектов красиво и эффективно.

Вы будете:

  • Строить, развивать и эксплуатировать кластера Hadoop (HDFS/Hive, Yarn, Spark, Ranger).
  • Сопровождать и развивать сервисы вокруг Hadoop (JupyterLab).
  • Разрабатывать инфраструктурный код для поддерживаемой инфраструктуры (Ansible, Ferrum).
  • Автоматизировать рутинные задачи, разрабатывать и развивать решения “as a Service”.
  • Обеспечивать устойчивость инфраструктуры к отказам и катастрофам (HA & DR).
  • Сотрудничать с командой инженеров Data Science (как последняя линия поддержки, "никто кроме вас").
  • Траблшутить и мониторить поддерживаемую инфраструктуру и сервисы.
  • Документировать сервисы.

Нам важно:

  • Понимание архитектуры, принципов и механизмов работы ОС Linux (управление процессами, файловые системы, сетевой стек) на уровне системного администратора.
  • Большой опыт эксплуатации/развития/построения кластеров на технологиях из стека Apache Hadoop.
  • Понимание концепции хранилищ данных и ETL-процессов.
  • Умение писать и тестировать инфраструктурный код, понимание концепции Infrastructure as Code.
  • Понимание принципов, опыт построения отказоустойчивых сервисов и эксплуатации высоконагруженных систем.
  • Навыки CI/CD (используем GitLab).
  • Умение автоматизировать рутинные задачи, деплоймент сервисов и инфраструктуры, разрабатывать инструментарий и писать под них тесты (мы пишем на Python/Go/Bash).
  • Опыт работы с технологиями виртуализации (оркестрация как плюс).
  • Опыт работы с Apache Airflow (написание простых дагов).
  • Понимание принципов мониторинга и навыки траблшутинга, как системных, так и прикладных компонентов: какие метрики собирать, куда смотреть при проблемах, какие дашборды для этого нужны (мы используем Prometheus/Grafana).

Будет плюсом:

  • Опыт работы с Clickhouse, Postgres, Trino, знание SQL.
  • Опыт траблшутинга Spark-приложений, умение читать Java-код.