Лига Ставок

Python разработчик/Инженер данных (парсинг)

До 290 000 RUR
  • Москва
  • Полная занятость
  • Удаленная работа
  • От 3 до 6 лет
  • Python Asyncio
  • SQL
  • Git
  • Airflow
  • CI/CD
  • Docker
  • Selenium
  • PostgreSQL
  • ORM

Ищем Python разработчика для работы над парсерами сайтов и сбора данных для отдела ML

ЧЕМ ПРЕДСТОИТ ЗАНИМАТЬСЯ

  • Дорабатывать существующие проекты парсинга, создавать новые парсеры для различных источников, включая конкурентов
  • Организовывать хранение данных парсинга и работа с ETL процессами
  • Агрегировать и обрабатывать данные

ЖДЕМ ОТ ТЕБЯ

  • Умение работать с технологиями парсинга сайтов для автоматизации сбора данных
  • Знание Python, коммерческий опыт от 2х лет (в идеале Python Asyncio)
  • Опыт разработки парсеров для высоконагруженных проектов, обход блокировок по ip, прочих блокировок от парсинга
  • Многопоточный парсинг данных
  • Владение любым пакетом для создания интерфейсов (напр. PyQT, wxPython, Tkinter, Kivy и. т. п.)

БУДЕТ ПЛЮСОМ

  • Понимание машинного обучения

  • Веб-фреймворки (FastAPI) Airflow CI/CD (Docker, docker-compose)

  • Парсинг (Selenium, bs4, scrapy, опыт обхода блокировок по ip/капчи)

  • Многопоточный парсинг данных;

  • БД (SQL, PostgreSQL) - индексы, транзакции, понимание/опыт оптимизации сложных запросов, будет плюсом опыт использования различных ORM (sqlalchemy и др.)

  • Знание и понимание алгоритмов сопоставления текстовых данных (fuzzywuzzy)