Алексей Зиновьев — Тонкости машобуча вместе со Spark ML
Что нужно уметь и понимать джависту на типичном BigData ML проекте:
— как выбирать фичи;
— как перекодировать фичи;
— как скалировать;
— как очищать и заполнять пропуски;
— как оценивать качество кластеризации;
— что делать, если одного дерева мало;
— уметь делать кросс-валидацию.
И всё это на Scala Spark!
Всё это на примере одного из самых популярных датасетов с Kaggle — от А до Я.