Vision-Language Pre-Trained Models. Мы подробно разберём Flamingo, BLIP-2, LLaVA и LLaVA-1.5

Оторвитесь от предновогодней суеты и уделите один вечер знаниям: 19 декабря в 20:00 пройдёт семинар от VK Lab. Наш стажёр Даниил Белопольских расскажет про мультимодальные модели, а именно: Vision-Language Pre-Trained Models. Мы подробно разберём Flamingo, BLIP-2, LLaVA и LLaVA-1.5. А ещё вы узнаете: — в чём сложность взаимодействия изображений и текста; — какие датасеты нужны для обучения таких моделей; — как их сравнивать. В конце семинара обязательно ответим на ваши вопросы. Подключайтесь!

1,303 view

1888

586