Rethinking Attention with Performers / A Generalization of Transformer Networks to Graphs

00:00:00 Rethinking Attention with Performers 00:45:37 A Generalization of Transformer Networks to Graphs “Rethinking Attention with Performers“ В настоящее время трансформеры являются SoTA моделями на задачах моделирования последовательностей. В их основе лежит механизм внимания (attention), который описывает попарные взаимодействия между входными данными на каждом временном шаге. Платой за высокие результаты, которых позволяет добиться использование attention, является его слабая (квадратичная) масштабируемость по длине входной последовательности. На семинаре мы рассмотрим один из методов, позволяющим сделать вычисление матрицы attention более эффективным (линейным по длине последовательности). На семинаре мы: - обсудим, как kernel методы приближают классический softmax attention - в частности, разберем предложенный авторами статьи метод FAVOR - узнаем про теоретические гарантии сходимости метода к классическому attention - посмотрим на результаты экспериментов

15 views