Подробный обзор архитектуры Трансформер
Материалы к видео:
00:00 - чем трансформер отличается от RNN?
00:57 - encoder-only, decoder-only, encoder-decoder
01:26 - encoder-only
02:10 - decoder-only
03:21 - encoder-decoder
04:46 - эмбеддинги
05:34 - self-attention
08:41 - multi-head self attention
11:05 - residual connection, layer norm