Codex Optimus

Senior Site Reliability Engineer (SRE)

Не указана
  • Санкт-Петербург
  • Полная занятость
  • Удаленная работа
  • От 3 до 6 лет
  • Grafana
  • Elasticsearch
  • VictoriaMetrics
  • Zabbix
  • Docker
  • Nginx
  • Ansible
  • K8S
  • ArgoCD
  • SRE

Мы Yangi Bank — цифровой банк в Узбекистане. Быстрый и надёжный. Хотим сделать лучший финансовый сервис для людей и бизнеса.

В нашей команде — разработчики с опытом в финтехе, высоконагруженных системах и кибербезопасности. С нами комфортно работать и отлично отдыхать!

Мы растём, поэтому ищем Senior SRE (Site Reliability Engineer).

Что по задачам:

  • Развитие систем мониторинга, алертинга и логирования:

    • Создание дашбордов мониторинга работы сервисов и бизнес-процессов. (Основной инструмент, который мы используем - Grafana);

    • Настройка алертов из разных источников, проработка планов эскалации. (Сейчас основные инструменты это Grafana, Grafana OnCall, VMAlert для приложений, для инфраструктуры частично используется Zabbix);

    • Внедрение и настройка Grafana Loki + Alloy в качестве централизованной системы агрегации логов;

    • Консультация и помощь смежным командам по вопросам мониторинга;

  • Incident & problem management:

    • Дежурства в формате OnCall, реагирование на алерты, классификация и регистрация инцидентов;

    • Устранение сбоев в работе приложений и инфраструктуры, как самостоятельно, так и с привлечением коллег из смежных команд (разработка, devops, сети, виртуализация и т.д.);

    • Проведение Postmortem митингов и написание Postmortem. Расследование причин инцидентов, проработка мероприятий по повышению доступности сервисов, контроль выполнения этих мероприятий;

  • Обработка клиентских обращений:

    • Решение сложных кейсов и единичных сбоев в работе приложений, которые не смогли решить на 1 и 2 линии поддержки;

    • Автоматизация решения таких сбоев;

    • Проработка требований и постановка задач на разработку инструментов, которые позволят саппорту самостоятельно решать больше клиентских обращений без привлечения IT.

Какие опыт и знания мы ищем:

  • Опыт работы в роли SRE от 3х лет;

  • Понимание принципов SRE, практический опыт внедрения практик SRE;

  • Опыт работы с системами мониторинга, алертинга, трассировки и логирования (Grafana, VictoriaMetrics, Prometheus, Loki, Elastic, Sentry, …);

  • Владение языком программирования для разработки скриптов автоматизации (Python, Golang и т.д.), умение разбираться в чужом коде;

  • Навык troubleshooting в сложных распределенных системах;

  • Опыт работы с K8S;

  • Умение читать архитектурные диаграммы (UML);

  • Базовый опыт работы (написание запросов) с базами данных, например PostgreSQL, Oracle, MSSQL;

  • Понимание принципов и практический опыт построения отказоустойчивых систем;

  • Опыт администрирования операционных систем Linux.

Желательно:

  • Опыт внедрения систем мониторинга и логирования с нуля;

  • Продвинутые навыки программирования на любом языке;

  • Опыт работы с инструментами автоматизации сборки и развертывания ПО (CI/CD): ArgoCD, GitLab, Jenkins и прочими;

  • Знакомство с BPM системой ELMA365;

  • Опыт работы с REST API, Postman, Swagger, Kafka, Rabbit MQ.

Плюсы работать у нас:

  • Возможность влиять на развитие SRE направления в компании. Все ваши идеи будут услышаны и при возможности реализованы;

  • Свобода в выборе инструментов для реализации поставленных задач.

Как мы работаем:

  • Дома или в офисе — главное, чтобы было удобно. Есть 2 офиса: в Санкт-Петербурге и Ташкенте. А ещё у нас есть аккредитация.
  • Без микроменеджмента. Мы не трекаем рабочее время — просто пишем в чате, если будем не на связи и спокойно идём пить кофе.
  • Отсутствие бюрократии.
  • С хорошими людьми. Пятничная пицца, квизы и Counter-Strike.
  • Официально и с заботой. Обсуждаем процессы, пробуем и внедряем новое. Любим учиться: курсы, конференции.

Наш технологический стек:

  • Мониторинг, алертинг, трассировка, логи: Grafana, Loki, Alloy, VictoriaMetrics, Sentry, Zabbix

  • Инфраструктура: K8S, Docker, Rancher, Kafka, Github, ArgoCD

  • Код: в основном Ruby on Rails 7, есть немного GO и .NET.