В интернете бесчисленное множество страниц, которые к тому же постоянно меняются, и одна из основных задач поискового робота Яндекса — эффективно и быстро скачивать эти страницы и подготавливать их для добавления в поисковую базу. От этого во многом зависит успех поиска в целом.
Мы постоянно улучшаем контент-систему Поиска, и нам нужны единомышленники, которые помогут сделать наших пользователей счастливее. Сейчас наша команда делает новую систему потоковой обработки скачанных данных, а также ищет способы более эффективного скачивания ресурсов из интернета и рендеринга динамических страниц.
Наш стек:
- C++, GoLang
- Linux
Какие задачи вас ждут
Разработка realtime-обработчика скачанных документов
Вы будете парсить страницы, применять к ним нейросетку и отправлять результаты сотням клиентов.
Доработки и оптимизации «качалки» интернета и подсистем
Вы займётесь поддержкой новых протоколов, обходом банов, оптимизацией скорости прокачки. Нужно будет дорабатывать и оптимизировать подсистемы для рендеринга и скачивания динамических страниц и ресурсов.
Развитие поддержки системы
Вы будете дополнять существующие метрики, логирование и трассировку, улучшать вьюеры и средства отладки, налаживать тестирование наших систем.
Мы ждем, что вы
- Уверенно владеете С++ и новыми стандартами
- Имеете понятие о многопоточном программировании
- Понимаете, как работают основные web-технологии
- Пишете эффективный и понятный код
- Способны объяснять свои решения и договариваться с коллегами
- Самостоятельны и готовы работать в команде