Валерия Дымбицкая Ищем релевантные признаки из сотен источников для любой модели

Ближайшая конференция I’ML: #imlconf #ml #mlops #IT #conference #jugrugroup Итак, вы хотите использовать внешние данные для обучения. Как найти нужные? Можно опираться на метаданные датасетов: их схему, описание, различные фильтры... и потом погрузиться в работу по очистке данных и в эксперименты. И может случиться так, что с виду хороший датасет совсем не подходит для вашей задачи. А если иначе? Мы в Upgini делаем сервис, который упрощает этот процесс до одного запроса в Google вызова open-source библиотеки. Каков путь от эталона и сотен источников до фич, повышающих GINI? Какие ловушки подстерегают, когда из тысяч признаков нужно выбрать оптимальный набор? И при чем тут LLM? Обо всем этом расскажу в своем докладе. Скачать презентацию с сайта —

25 views

4310

1541