DatsTeam

Инженер систем мониторинга и оповещений

Не указана
  • Москва
  • Полная занятость
  • Удаленная работа
  • От 3 до 6 лет

Наша распределенная команда Dev насчитывает более 700 специалистов и разрабатывает собственные продукты с 2012 года – рекламные платформы, игровые сервисы и платформы, мобильные игровые и развлекательные приложения, финтех-продукты и решения.

У нас проектно-ориентированный подход, матричная структура с привязкой специалистов к одному проекту, но при этом мы работаем командой. В работе мы применяем SCRUM, Agile.

Обязанности:
  • Проектирование и настройка систем мониторинга
    • Разработка архитектуры системы мониторинга инфраструктуры и приложений
    • Внедрение систем мониторинга и сбора логов (Prometheus, ELK Stack, Grafana, Grafana OnCall)
  • Проектирование системы оповещений
    • Настройка триггеров и оповещений для своевременного уведомления о сбоях
    • Оптимизация пороговых значений для минимизации ложных срабатываний
    • Интеграция со смежными системами: мессенджеры, системы управления инцидентами
  • Анализ и отчетность
    • Создание дашбордов и отчетов для анализа ключевых метрик производительности и доступности
    • Проведение RCA после инцидентов
  • Оптимизация и автоматизация
    • Разработка автоматизированных решений для устранения инцидентов и сбора метрик
    • Интеграция мониторинга с CI/CD-процессами
  • Поддержка и развитие инфраструктуры мониторинга
    • Обновление и поддержка версий систем мониторинга
    • Масштабирование систем для поддержки роста компании

Технически навыки:

  • Системы мониторинга
    • Экспертные знания современных инструментов мониторинга (Prometheus, Grafana, ELK Stack)
    • Опыт настройки дашбордов, отчетов и оповещений
  • Системное администрирование:
    • Опыт работы с Linux/Windows на уровне системного администратора
    • Понимание работы основных сетевых протоколов (TCP/IP, SNMP, HTTP, ICMP)
    • Опыт настройки мониторинга компонентов сетевой инфраструктуры
    • Знание скриптовых языков (Python, Bash, PowerShell) для автоматизации задач мониторинга

Желательные знания и опыт:

  • Опыт работы с контейнерами (Docker, Docker-Compose, Kubernetes) и мониториг их инфраструктуры
  • Сертификации CCNA, RHCE будут преимуществом

Личностные качества:

  • Умение быстро реагировать на инциденты и принимать решения
  • Аналитическое мышление, умение находить корневые причины проблем
  • Хорошие коммуникационные навыки
  • Умение работать в распределенной команде и взаимодействовать со смежными подразделениями технического департамента (Разработка, Служба Поддержки)

Условия:

  • У нас удаленка, но есть офис в Москве для желающих поработать в формате коворкинга или с закрепленным рабочим местом
  • Оформление в штат компании или заключение международного контракта
  • Гибкий график работы из дома или офиса - лояльное начало дня, 8 часов рабочий день
  • Возможность выбрать привычное оборудование (mac, linux, windows, мониторы и пр.) с доставкой на дом
  • Performance review, на котором мы поможем тебе выстроить цели, а также ежегодную индексацию зарплаты
  • Непрерывное обучение: у нас есть внутренняя Академия, а также много партнёрских программ, которые поделятся знаниям не только в профессиональной сфере, но и поддержат твои хобби
  • Митапы, конференции, хакатоны, квесты, онлайн-игры – лишь небольшая часть наших активностей, в которых ты сможешь участвовать
  • Разнообразные корпоративные программы: английский, мастер-классы, развлечения и отдых
  • Классный офис на Тульской с видом на Москву-реку и летней верандой, зонами отдыха, гамаками и прочим