GOAT: валидация языковых моделей на заданиях государственных экзаменов
GOAT — это набор данных и система валидации языковых моделей на основе ЕГЭ и ОГЭ.
В ходе проекта удалось:
1. собрать датасет с заданиями госэкзаменов по литературе, русскому языку и обществознанию — все вопросы были разбиты по категориям в зависимости от типа ответа и рассортированы по отдельным таблицам;
2. интегрировать собранный датасет в виде различных бенчмарков в популярные open-source фреймворки — LM Evaluation Harness () и FastChat ().
Подробнее о проекте смотрите в видео! И делимся важными ссылками:
— датасет с заданиями ЕГЭ:
— код парсера и лидерборда:
1,238 view
2109
899
4 months ago 00:15:12 1.2K
GOAT: валидация языковых моделей на заданиях государственных экзаменов