Максим Пантелеев: Тext deduplication on social media data
Data Fest Online 2021
NLP in Industry track
Всем привет! Меня зовут Пантелеев Максим и в этом докладе я хочу рассказать об одной часто встречающейся задаче в обработке естественного языка - дедупликация текстового массива. Эта задача часто встречается в анализе пользовательских обращений, твитов, так и как один из этапов подготовки данных для тренировки сложных моделей, н/п BERT/GPT и тд. Расскажу сходствах и отличиях этой задачи от задачи кластеризации, об основанных на поиске ближайших соседях подходах и не только, сравню качество работы выбранных методов дедупликации на некоторых известных датасетах, а так же ответить на вопрос как влияют на качество дедубликации существующие эмбеддинги текстов, н/п такие как USE/fasttext/word2vec/glove/tfidf и тд
Посмотреть эфир и список треков и организаторов:
Зарегистрироваться на фест и получить доступ к трекам:
Вступить в сообщество:
Соцсети Data Fest: