Мы строим распределённую сеть прокси для российского форка Telegram, где всё завязано на скорость, устойчивость и умный контроль соединений. Множество узлов, real-time метрики, автоматическое оценивание нагрузки и прогнозирование по регионам. Всё крутится вокруг миллисекунд и решений, которые чувствуются пользователями прямо на экране.
Тебе предстоит:
— следить за метриками качества (RTT, latency, success-rate, conn-load);
— улучшать SLA, снижать деградации и автоматизировать реакции;
— заниматься TCP-тюнингом (BBR/BBR2, fq, sysctl, MTU/MSS);
— развивать стек мониторинга (Prometheus / VictoriaMetrics / Grafana / Alertmanager);
— писать утилиты и сервисы на Go/Python — для сбора метрик, скоров, автоматического балансирования и самовосстановления;
— участвовать в разработке Telemetry / Scoring / Forecaster сервисов.
Что мы ждём:
-
уверенные знания Linux networking (iptables, tc, iproute2, ss, netstat);
-
опыт в TCP-оптимизации (BBR, Cubic, Reno, RTT-анализ, throughput-тюнинг);
-
умение работать с Prometheus / Grafana / Alertmanager;
-
знание Go или Python (и желание использовать их для автоматизации и анализа);
-
опыт с Terraform / CI / CD;
-
понимание SRE-подходов: SLO, error budgets, capacity planning.
Будет круто, если ты:
-
кайфуешь от того, когда latency падает на 30 мс из-за твоей правки;
-
не боишься лезть в sysctl, tcpdump и графы PromQL;
-
хочешь строить систему, которая сама учится поддерживать свой SLA.