Cloud.ru

SRE-инженер

Не указана
  • Москва
  • Полная занятость
  • Удаленная работа
  • От 3 до 6 лет
На этой позиции тебе предстоит:
  • оценка систем на строгое соответствие "Стандарту по архитектурным решениям для внутренних АС" и "Требованиям к эксплуатации ПО", контроль устранения недоработок, в том числе внесение изменений в системы, находящиеся в промышленной эксплуатации;
  • контролировать выпуск в промышленную эксплуатацию всего "кода": весь деплой должен быть покрыт тестами с возможностью отката всех внесенных изменений;
  • качественный мониторинг и алертинг: сам дорабатывает имеющееся и разрабатывает новое;
  • участие в инцидент-менеджменте: участие в устранении аварий; последующей стабилизации; заполнении и разборе постмортемов; разработка и выполнение мер, направленных на предотвращение повторных инцидентов;
  • проведение DR тестирования согласно DRP;
  • согласование изменений продукта (архитектуры, дизайна, масштабирования), оценка рисков и целесообразности.
Что мы ждем от кандидата:
  • знание и опыт использования систем мониторинга и понимание технологий сбора метрик, понимание для чего нужен мониторинг;

  • Zabbix, Prometheus, Grafana;

  • знание *nix систем на уровне пользователя и выше, знание стандартных команд;

  • понимание работы приложений «клиент-сервер»;

  • знание стека TCP/IP;

  • понимание роли координатора инцидентов;

  • минимальные знания скриптовых языков программирования (Bash, Python и тп);

  • готовность работать в сменном графике, офис (2/2, день, ночь).

Дополнительно:
  • опыт работы в направлении мониторинга;

  • опыт работ в системах ServiceDesk, JIRA , Confluence и т.д;

  • опыт администрирования высоконагруженных систем.