Андрей Кузнецов. Способы обучения языковых моделей пониманию новых типов данных: изображения, видео, аудио

Сейчас один из трендов — это мультимодальность. То есть когда фундаментальная (языковая) модель умеет поддерживать связный диалог не только с использованием текста, но и при помощи картинок, видео и аудио. Вышло уже достаточно много моделей и сервисов типа GPT-4V, LLaVA, Qwen-VL и другие. Моя команда разрабатывает мультимодальную модель OmniFusion, которая сейчас показывает очень высокие показатели по ряду метрик, обгоняя другие решения, даже преобладающие по числу параметров. В докладе хочется сконцентрироваться на технологиях и методах добавления новых модальностей, способах обучения таких механизмов и рассказать наш опыт в решении downstream задач, которые возникают на стыке нескольких модальностей. Сайт – Презентация –

5 views

342