RDP.RU

Data architect

Не указана
  • Москва
  • Полная занятость
  • Удаленная работа
  • От 3 до 6 лет
  • ETL
  • DWH
  • S3
  • Clickhouse
  • BigQuery
  • Spark
  • Kafka
  • SQL
  • Airflow
  • HDFS
  • Hive

RDP - ведущий российский производитель сетевых решений.

Мы специализируемся на разработке инновационного программного обеспечения и программно-аппаратных комплексов для высокопроизводительной обработки сетевого трафика. Продукция компании широко востребована в сетях операторского класса, крупных предприятиях и Госсекторе.

Одна из ключевых особенностей нашей компании – поставка масштабируемых решений на базе нашего оборудования, интеграция с системами Заказчика и доработка продуктов под поставляемые решения.

Сейчас мы находимся в поиске Аналитика данных в команду, которая занимается разработкой платформы обработки больших данных, а именно сетевого трафика. Этот продукт будет использоваться для предотвращения сетевых атак, поиска аномалий в трафике и др.

Чем предстоит заниматься:

  • Проектирование и масштабируемое развитие хранилищ данных (DWH) и озёр данных (Data Lake);

  • Разработка, оптимизация и масштабирование ETL/ELT-процессов с использованием Airflow, Spark, dbt и других инструментов;

  • Создание логических и физических моделей данных (3NF, Star/Snowflake, Data Vault 2.0, Anchor Modeling);

  • Внедрение практик Data Governance: контроль качества данных, управление метаданными, создание каталогов данных;

  • Выбор, внедрение и настройка технологий хранения (S3, ClickHouse, BigQuery) и обработки данных (Spark, Kafka);

  • Обеспечение производительности и надежности систем данных;

  • Согласование требований с аналитиками, специалистами Data Science и бизнес-заказчиками;

  • Создание технической документации, стандартов и best practices по работе с данными.

Что мы ожидаем:

  • Опыт проектирования и внедрения DWH/Data Lake и ETL/ELT-процессов — не менее 3 лет;

  • Свободное владение SQL, включая оптимизацию запросов и работу с большими объемами данных;

  • Знание ключевых методологий моделирования данных и понимание их применения в разных сценариях;

  • Опыт работы с основными инструментами и технологиями: Airflow, Spark, dbt, ClickHouse, S3, Kafka;

  • Знание Python на уровне, достаточном для автоматизации ETL-процессов, написания скриптов и прототипирования решений;

  • Понимание принципов Data Governance, управления качеством данных и метаданными;

  • Опыт работы с Hadoop-экосистемой (HDFS, Hive и др.).

Условия работы:

  • Работа в аккредитованной IT компании;
  • Трудоустройство в соответствии с ТК РФ;
  • Белая заработная плата (оклад обсуждаем с успешным кандидатом после прохождения технического интервью);

  • График работы: 5/2, гибкое начало рабочего дня (с 8:00 до 12:00);
  • Возможность работать удаленно;
  • Офис находится в Москве в БЦ "Трио" на метро Динамо (или мцд Гражданская), а также есть офис в Санкт-Петербурге и в Рязани;
  • И плюшки ниже :) ↴