Cloud.ru

SRE-инженер

Не указана

Москва
Полная занятость
Удаленная работа
От 3 до 6 лет

На этой позиции тебе предстоит:

оценка систем на строгое соответствие "Стандарту по архитектурным решениям для внутренних АС" и "Требованиям к эксплуатации ПО", контроль устранения недоработок, в том числе внесение изменений в системы, находящиеся в промышленной эксплуатации;
контролировать выпуск в промышленную эксплуатацию всего "кода": весь деплой должен быть покрыт тестами с возможностью отката всех внесенных изменений;
качественный мониторинг и алертинг: сам дорабатывает имеющееся и разрабатывает новое;
участие в инцидент-менеджменте: участие в устранении аварий; последующей стабилизации; заполнении и разборе постмортемов; разработка и выполнение мер, направленных на предотвращение повторных инцидентов;
проведение DR тестирования согласно DRP;
согласование изменений продукта (архитектуры, дизайна, масштабирования), оценка рисков и целесообразности.

Что мы ждем от кандидата:

знание и опыт использования систем мониторинга и понимание технологий сбора метрик, понимание для чего нужен мониторинг;
Zabbix, Prometheus, Grafana;
знание *nix систем на уровне пользователя и выше, знание стандартных команд;
понимание работы приложений «клиент-сервер»;
знание стека TCP/IP;
понимание роли координатора инцидентов;
минимальные знания скриптовых языков программирования (Bash, Python и тп);
готовность работать в сменном графике, офис (2/2, день, ночь).

Дополнительно:

опыт работы в направлении мониторинга;
опыт работ в системах ServiceDesk, JIRA , Confluence и т.д;
опыт администрирования высоконагруженных систем.

Источник вакансии

Вернуться, к списку вакансий