Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision
В последние годы набирают популярность визуально-языковые модели. Это мультимодальные модели, которые позволяют, например, осуществлять поиск изображений по тексту. Как правило, в таких моделях используются качественные данные, фильтрация и разметка которых стоит очень дорого.
На семинаре мы рассмотрим результаты авторов рассматриваемой статьи. Они показали, что в визуально-языковых моделях можно пренебречь качеством текстовых данных и получить высокое качество модели за счёт возникающего большого объёма данных, который компенсирует их зашумлённость. Такой подход позволил авторам получить SOTA модель при использовании архитектуры dual-encoder и contrastive loss на бенчмарках для image-text поиска.
Докладчик: Виктория Фролова.
6 views
27
4
1 week ago 00:02:32 2
Counting from 1 to 20
1 week ago 00:00:09 1.8K
Видео от Софья Бабурина | Школа макияжа Face Time СПб
1 week ago 00:26:10 156
ПСИ 2010-2011г.р. Волейбол. ГБОУ Школа 1151 - ГБОУ Школа 1353