Пайплайн машинного обучения на Apache Spark / Павел Клеменков (Rambler&Co)

Приглашаем на конференцию HighLoad 2024, которая пройдет 2 и 3 декабря в Москве! Программа, подробности и билеты по ссылке: -------- Тезисы и презентация: В докладе рассмотрим нашу старую архитектуру пайплайна машинного обучения, обратим внимание на ее недостатки как с точки зрения инфраструктуры и автоматизации, так и с точки зрения настройки моделей машинного обучения и проведения экспериментов. Разберемся с архитектурой Apache Spark, и почему мы решили его использовать. Подробно ознакомимся с новой архитектурой нашего пайплайна и тем, как она позволила оптимизировать обнаружение и устранение проблем, ускорила и упростила работу data scientist’ов по проведению экспериментов и доведения их до продакшена. Также затронем вопросы написания тестов и процесса разработки ПО на больших данных.
Back to Top