VK Lab Talks · Summer Edition, 1 июля 2021, онлайн.
Студент третьего курса ФПМИ Антон Земеров рассказывает о BPE-токенизации и её улучшениях.
Доклад посвящён state-of-the-art методам поиска оптимального разбиения текста на токены. Антон делится его подробностями: «Сначала рассмотрим классический алгоритм токенизации — Byte Pair Encoding. Затем — его улучшения: BPE-Dropout и Variational BPE-Dropout. Последний был разработан в VK Lab. Этот алгоритм использует вариационные методы и обучение с подкреплением, чтобы оптимально токенизировать текст. В докладе мы разберём сильные и слабые стороны каждого из методов, а также сравним их качество для задачи текстовой классификации».
Следите за нашими новостями в сообществе VK Lab: