Medical Transformer: Gated Axial-Attention for Medical Image Segmentation

В задаче сегментации медицинских изображений наилучших результатов достигают модификации архитектуры UNet. Однако, полагаясь исключительно на свертки, подобные сети принимают решение для каждого пикселя основываясь лишь на небольшой его окрестности. Данное ограничение авторы предлагают обойти с помощью механизма self-attention, как части encoder’a модели. Представленная модель(MedT) учитывает ограничение на небольшой размер датасета, типичный для возможных приложений. Для учета отношений между различными участками изображения вводится новая стратегия обучения(LoGo) — совместное использование двух похожих по архитектуре частей сети: локальной(для небольших областей) и глобальной(для всего изображения). На семинаре обсудим архитектуру модели, особенности выбранного self-attention механизма, а также альтернативные методы для подобной сегментации. Докладчик: Кирилл Чернышев.
Back to Top