
Navio (ООО Автотех)
Senior SRE-инженер
- Linux
- Ansible
- Prometheus
- Grafana
- Kubernetes
- CI/CD
- Terraform
- Azure
Чем предстоит заниматься:
-
Проектировать и поддерживать устойчивую, масштабируемую и высокодоступную инфраструктуру;
-
Обеспечивать высокую доступность и отказоустойчивость сервисов;
-
Внедрять и развивать практики мониторинга, алертинга, логирования и observability на базе стека VictoriaMetrics, Grafana и других инструментов;
-
Обеспечивать полную наблюдаемость систем за счёт организации сбора метрик, логов и трейсов;
-
Определять, внедрять и поддерживать SLI/SLO, проводить анализ первопричин (RCA) и постмортем-встречи;
-
Вести техническую экспертизу инцидентов, а также инициировать и реализовывать улучшения на основе проведённого анализа;
-
Тесно взаимодействовать с командами разработки и DevOps, участвовать в процессах CI/CD и работе над улучшением пайплайнов;
-
Активно использовать подход "Infrastructure as Code" (Terraform, Ansible) в ежедневной работе;
- Заниматься наставничеством, передачей знаний и развитием SRE-культуры внутри команды.
Что мы ждем от кандидата:
- Глубокое понимание принципов SRE и культуры надежности;
- Подтвержденный опыт в проектировании и поддержке высокодоступных, отказоустойчивых систем, способных выдерживать большие нагрузки;
- Экспертные знания в области Linux, мониторинга, логирования, алертинга и визуализации данных (опыт работы с Prometheus, Grafana, ELK Stack и другими подобными инструментами);
- Уверенное владение Kubernetes, CI/CD инструментами и инструментами Infrastructure as Code (Terraform, Ansible);
- Опыт работы с SLO/SLI, проведения RCA и написания качественных postmortem отчетов;
- Развитые навыки наставничества и технического лидерства, умение делиться знаниями и вдохновлять коллег;
- Отличные коммуникативные навыки и умение работать в команде;
- Опыт работы с облачными платформами (AWS, GCP, Azure) будет плюсом.