OmniParser : инструмент для распознавания UI в структурированный формат от Microsoft

OmniParser : инструмент для распознавания UI в структурированный формат от Microsoft. OmniParser - инструмент для анализа скриншотов пользовательского интерфейса, разработанный для улучшения работы агентов UI на основе LLM. Он преобразует скриншоты в структурированный формат, выделяя интерактивные области и описывая функции элементов(кнопки, иконки, значки и т.д) и не требует исходного HTML или иерархии представлений. OmniParser состоит из двух моделей: Модель обнаружения интерактивных элементов, основанная на YOLOv8 и обученная на датасете из 67 тысяч скриншотов веб-страниц с аннотациями кликабельных областей. Модель описания функций элементов UI, основанная на BLIP-2, обученная на 7 тысячах пар “элемент-описание“, созданных с помощью GPT-4o. OmniParser был протестирован в бенчмарках ScreenSpot, Mind2Web и AITW, где превзошел агентов на основе GPT-4V и модели, обученные на данных графических интерфейсов (SeeClick, CogAgent и Fuyu). OmniParser может испытывать трудности с распознаванием повторяющихся элементов, текста и с определением точных границ кликабельных областей. На сегодняшний день занимает первое место в трендах среди 1078 938 моделей. Локальная установка и запуск в Gradio UI : conda create -n “omni“ python== conda activate omni pip install -r python Лицензирование: MIT License. Страница проекта Набор моделей Arxiv Github
Back to Top