Даль

DevOps / SRE Engineer — Proxy Infrastructure

Не указана
  • Казань
  • Полная занятость
  • Полный день
  • От 1 года до 3 лет

Мы строим распределённую сеть прокси для российского форка Telegram, где всё завязано на скорость, устойчивость и умный контроль соединений. Множество узлов, real-time метрики, автоматическое оценивание нагрузки и прогнозирование по регионам. Всё крутится вокруг миллисекунд и решений, которые чувствуются пользователями прямо на экране.

Тебе предстоит:

— следить за метриками качества (RTT, latency, success-rate, conn-load);

— улучшать SLA, снижать деградации и автоматизировать реакции;

— заниматься TCP-тюнингом (BBR/BBR2, fq, sysctl, MTU/MSS);

— развивать стек мониторинга (Prometheus / VictoriaMetrics / Grafana / Alertmanager);

— писать утилиты и сервисы на Go/Python — для сбора метрик, скоров, автоматического балансирования и самовосстановления;

— участвовать в разработке Telemetry / Scoring / Forecaster сервисов.

Что мы ждём:

  • уверенные знания Linux networking (iptables, tc, iproute2, ss, netstat);

  • опыт в TCP-оптимизации (BBR, Cubic, Reno, RTT-анализ, throughput-тюнинг);

  • умение работать с Prometheus / Grafana / Alertmanager;

  • знание Go или Python (и желание использовать их для автоматизации и анализа);

  • опыт с Terraform / CI / CD;

  • понимание SRE-подходов: SLO, error budgets, capacity planning.

Будет круто, если ты:

  • кайфуешь от того, когда latency падает на 30 мс из-за твоей правки;

  • не боишься лезть в sysctl, tcpdump и графы PromQL;

  • хочешь строить систему, которая сама учится поддерживать свой SLA.