BPE-токенизация и её улучшения / Антон Земеров

VK Lab Talks · Summer Edition, 1 июля 2021, онлайн. Студент третьего курса ФПМИ Антон Земеров рассказывает о BPE-токенизации и её улучшениях. Доклад посвящён state-of-the-art методам поиска оптимального разбиения текста на токены. Антон делится его подробностями: «Сначала рассмотрим классический алгоритм токенизации — Byte Pair Encoding. Затем — его улучшения: BPE-Dropout и Variational BPE-Dropout. Последний был разработан в VK Lab. Этот алгоритм использует вариационные методы и обучение с подкреплением, чтобы оптимально токенизировать текст. В докладе мы разберём сильные и слабые стороны каждого из методов, а также сравним их качество для задачи текстовой классификации». Следите за нашими новостями в сообществе VK Lab:
Back to Top