Аренадата Софтвер

Инженер инференса

Не указана
  • Москва
  • Полная занятость
  • Удаленная работа
  • От 1 года до 3 лет
  • LLM
  • vLLM
  • SGLang
  • Python
  • Docker
  • CI/CD
  • Linux

Группа компаний Аренадата заявляет одним из своих приоритетов трансформацию привычных СУБД и иных продуктов по работе с данными под сценарии работы с ИИ-агентами, работающими на локальных больших языковых моделях. Такие сценарии подразумевают прозрачность и контролируемость ИИ-агентов за счёт использования технологий constrained decoding в средах инференса, перемещения механизмов взаимодействия агентов в корпоративную шину данных, и других методов, недостижимых при работе с API крупных провайдеров. Важной составляющей реализации такой трансформации является бесперебойная и эффективная работа сред инференса работающих в компании, у наших клиентов и в программно-аппаратных комплексах наших партнёров; обеспечение этой задачи и является причиной создания данной вакансии.

Что нужно делать:

  • Осуществлять эксплуатацию и поддержку сред инференса, развёрнутых для внутренних нужд компании;
  • Осуществлять курирование закупки и сборки, и развёртывания ПО и оборудования для сред инференса больших языковых моделей;
  • Быть техническим экспертом по вопросам сайзинга и наполнения решений по инференсу в рабочих группах создания программно-аппаратных комплексов для ген.ИИ (как компании, так и партнёров);
  • Обучать партнёров и собственную presales-команду принципам создания, поддержки и эксплуатации сред инференса, как consumer grade (для PoC в небольших проектах), так и enterprise-grade;
  • Рекомендовать и способствовать внедрению лучших инженерных практик в процессы своей зоны ответственности.

Мы ждем, что вы:

  • Имеете техническое образование: математика, физика, биотехнологии, ИТ;
  • Имеете хороший английский для чтения сложной и неполной технической документации, заведения PR, коммуникации в сообществах OSS-продуктов;
  • Имеете знания в области LLM:

    • Понимание принципов работы больших языковых моделей. Токенизация, эмбеддинги, внимание, KV-cache, MoE и т.п.
    • Регулярное использование LLM для личных нужд, понимание ограничений и границ доверия.
  • Имеете знания из области инференса:

    • Опыт от полугода в настройке инференса больших языковых моделей в vLLM, SGLang
    • Понимание общих принципов structured outputs, JSON-schema, Pydantic-schema;
    • Опыт работы с Python: служебные скрипты, health-checks, pre-/post-processing обвязки.
  • Имеете инженерные знания:

    • Опыт работы в роли DevOps, администратора системного или базового ПО от 1 года;
    • Знание Docker, написание Dockerfile, сборка образов, работа с docker-compose.
    • Понимание принципов организации CI/CD pipelines; умение пояснить как нужно организовывать, а как не нужно.
    • Настройка Linux-серверов с нуля.
    • Понимание принципов подбора компонент для рабочих станций и серверов с несколькими GPU (бутылочные горлышки, варианты оптимизации стоимости и сопутствующие минусы).

Будет плюсом:

  • Понимание OpenAI API reference в части Completions / Chat или Responces;
  • Понимание принципов работы СУБД и различий между типами СУБД, знание основ SQL и проектирования БД;
  • Опыт работы с GPU в Kubernetes, HPA, KEDA;
  • Опыт настройки и эксплуатации средств мониторинга и трассировки: Prometheus, Grafana, OpenTelemetry или другие;
  • ИБ: vaults, KMS, RBAC, Kerberos и т.п.;
  • Опыт использования Kafka, Airflow;
  • Знание Ansible.