ЭЙП ТЕКНОЛОДЖИ

Архитектор AI решений

До 250 000 RUR

Москва
Полная занятость
Удаленная работа
От 3 до 6 лет

Python 3.11 (Async/FastAPI), Go 1.22 (high load сервисы)
Inference: vLLM, Triton, HuggingFace TGI, CUDA 12
pgvector (PostgreSQL 15), FAISS, Milvus
Istio, Envoy (mTLS, rate limit)
Kubernetes 1.29, Argo Rollouts, Helm
Prometheus, Grafana, Loki, Tempo, Jaeger
GitLab, Docker Build Kit, IaC (Terraform, Pulumi)

Обязанности:

Архитектура RAG‑пайплайна

Выбор векторной БД (pgvector, Milvus) и ретриверов
Дизайн схем chunking, re‑ranking, кешей
Требования к latency ≤ 8 с (P99)
Интеграция LLM
Обёртка над vLLM/ Triton‑Inference
Канарейка‑деплой, blue‑green, A/B тесты
API & Orchestration
gRPC шлюз к ML‑ядру
REST/GraphQL фасад для UI и внешних систем
Наблюдаемость
Метрики Prometheus, трейсинг OTEL, логи Loki
Алёрты в Grafana + Opsgenie
Безопасность
RBAC, Key‑/Secret‑management, audit trail
Внедрение SAST/DAST в CI
Командная работа
Mentoring ML/Backend dev’ов, code‑review
Авторы ADR, тех. спецификаций

Требования:

Обязательные условия

5+ лет проектирования распределённых систем
Опыт вывода LLM/RAG в продакшн (latency, кеши)
Уверенный Kubernetes (Helm, HPA, service‑mesh)
Python или Go на уровне чтения и написания prod‑кода
Знание Postgres (индексы, репликация)

Необязательные условия

Опыт в нефтегазе/индустриальном IoT

Оптимизация GPU‑кластеров (NUMA, MIG)
FinOps: расчёт TCO/ROI on‑prem vs cloud
Участие в open‑source (PR’ы в vLLM, LangChain)

Условия:

Оборудование

MacBook Pro M2 + доступ к GPU‑кластеру A100/L40

Бонусы

Годовой KPI‑бонус до 20 %, ДМС, 28 дн. отпуска

Обучение

150 k ₽/год (конференции, курсы, сертификация CKAD)

Источник вакансии

Вернуться, к списку вакансий