Swarmica
Product DevOps / Senior SRE / Infrastructure Reliability Engineer
- Linux
- Docker
- PostgreSQL
- Bash
- Ansible
- Nginx
- Redis
- DevOps
- Gitlab
- Celery
- RabbitMQ
- SMTP/POP3/IMAP
- Python
- Системный анализ
- Английский — B1 — Средний
Мы делаем тикетницу “на стероидах” для продуктовых технических поддержек, которая чаще всего ставится on-premise на оборудование клиентов и встраивается в их инфраструктуру. Но иногда и по модели SaaS в нашем облаке.
Нужен человек, который может и хочет стать архитектором надежности нашего продукта. Вы возьмете на себя весь цикл стабильности — от глубокого анализа инцидентов до проактивного укрепления инфраструктуры.
Чем вы будете заниматься:
Фокус на надежности и поддерживаемости продукта:
-
Проведение глубокого траблшутинга сложных инцидентов 3-й линии: производительность сервера на Linux, проблемы сети (в том числе специфичное - взаимодействие продукта с внешними балансировщиками и реверс прокси, траблшутинг WebSockets), интеграции (внешние API, вебхуки), проблемы доставляемости почты (протоколы SMTP, IMAP).
-
Локализация корневых причин проблем на стыке приложения и инфраструктуры с использованием логов, метрик и данных профилирования. Вы не будете исправлять код, но ваши выводы будут служить для разработчиков будут максимально точной локализацией проблемы.
-
Проактивная работа: развитие мониторинга, логирования и алертинга для предотвращения сбоев.
Развитие инфраструктуры и автоматизация:
-
Развитие скрипта установщика (Bash), чтобы сделать процесс развертывания у клиентов максимально простым и безошибочным.
-
Полный контроль над CI/CD: сборка билдов, управление процессом релиза и деплоя.
-
Упаковка продукта с использованием Terraform и cloud-init для развертывания в облаках (Яндекс.Облако, VK Cloud).
-
Администрирование внутренней инфраструктуры (Git, тестовые стенды, продакшен-сервера).
Наш стек технологий:
-
Инфраструктура и ОС: Linux, Docker
-
Сети и коммуникации: traefik, WebSockets, почтовые протоколы (SMTP, IMAP), REST API
-
Базы данных и очереди: Postgres, Redis, RabbitMQ, Celery
-
CI/CD: GitLab, Ansible
-
Облака: Яндекс.Облако, VK Cloud, Selectel
-
Бэкенд: Python/Django (и немножко Go)
-
Мониторинг: Sentry
Мы ищем специалиста, который, обязательно имеет опыт:
-
Глубокого траблшутинга сложных распределенных систем — от сетей и ОС до БД и очередей сообщений.
-
Администрирования Linux-систем на продвинутом уровне.
-
Конфигурации реверс-прокси (nginx, haproxy, traefik, etc)
-
Настройки и траблшутинга почтовых серверов (postfix)
-
Настройки и поддержки CI/CD-процессов
-
Работы с одним из облачных провайдеров IaaS (Yandex Cloud, VK Cloud, Selectel или зарубежные аналоги).
-
Написания скриптов автоматизации на Bash / Python.
Обладает ключевыми качествами:
-
Системное мышление: Способен видеть проблему в целом, а не по отдельным симптомам.
-
Аналитический склад ума: Любит копаться в данных (логи, метрики), чтобы докопаться до сути проблемы.
-
Проактивность: Нацелен на то, чтобы предотвращать проблемы, а не просто реагировать на них.
-
Четкость коммуникации: Умеет ясно и структурировано излагать проблемы и предлагать решения разработчикам и руководству.
Что мы предлагаем:
-
Реальную возможность определять надежность продукта. Ваши решения напрямую повлияют на стабильность и удобство сопровождения Swarmica.
-
Работу в слаженной и заинтересованной в результате команде.
-
Ключевую роль в компании с прямым влиянием на удовлетворенность клиентов.
-
Гибкий график и удаленный формат работы.
Если вы читаете это не роботом, то напишите слово "антибот" в сопроводительном письме )