UZINFOCOM

Middle\Senior Data Engineer (Muxlisa AI)

Не указана
  • Ташкент
  • От 3 до 6 лет
  • Python
  • librosa
  • Soundfile
  • pandas
  • MinIO/S3
  • PostgreSQL
  • Английский — C1 — Продвинутый

Вам предстоит проектировать и поддерживать конвейеры данных (data pipelines) для развития речевых технологий в Muxlisa AI. Ваша работа станет фундаментом для обучения моделей автоматического распознавания речи (ASR/STT), синтеза речи (TTS) и диаризации, обеспечивая их чистыми и качественными наборами данных.

Обязанности:

  • Организация захвата и загрузки аудиоданных из различных источников (колл-центры, студии записи TTS, внутренние ресурсы).

  • Сбор открытых датасетов с использованием Python, библиотек для веб-краулинга и кастомных парсеров.

  • Очистка и предобработка звука (ресемплинг, VAD — определение активности речи, удаление тишины, сегментация).

  • Формирование выверенных пар «аудио-текст» для обучающих, валидационных и тестовых выборок (train/dev/test).

  • Оптимизация структуры данных и потоков в MinIO/S3.

  • Сопровождение процессов разметки (экспорт/импорт данных, валидация).

  • Создание и поддержка ETL-процессов для специфики STT/TTS.

  • Подготовка и поставка данных для инженеров машинного обучения.

Требования:
  • Уверенное владение Python (pandas, numpy, librosa, soundfile, re, pydub).

  • Опыт работы в среде Linux/bash и навыки обработки больших объемов данных.

  • Понимание основ обработки аудиосигналов.

  • Опыт работы с объектными хранилищами (S3/MinIO).

  • Глубокое понимание принципов структурирования данных: умение сегментировать, категоризировать и размечать данные, проектировать четкие схемы и обеспечивать консистентность форматов.

  • Знание специфики форматов данных для STT/TTS.

Будет плюсом:

  • Знакомство с инструментами оркестрации ETL (Airflow, Luigi).

  • Опыт работы с датасетами для диаризации речи.

Условия:

  • График работы: 5 дней в неделю, с 09:00 до 18:00;
  • Оформление в соответствии с Трудовым кодексом РУз, предоставление 28 календарных дней отпуска;
  • Отсутствие строгого дресс-кода — мы стремимся разрушить стереотипы о государственных организациях;
  • Работа в сильной команде профессионалов, готовых делиться знаниями и опытом;
  • Участие в крупных и значимых проектах, направленных на создание сервисов для улучшения жизни населения и оптимизацию бизнес-процессов в ведущих предприятиях страны;
  • Широкие возможности для самостоятельных решений и активного влияния на развитие компании.

    Мы ждем вас в нашей команде, чтобы вместе достигать новых высот!