GOAT: валидация языковых моделей на заданиях государственных экзаменов

GOAT — это набор данных и система валидации языковых моделей на основе ЕГЭ и ОГЭ. В ходе проекта удалось: 1. собрать датасет с заданиями госэкзаменов по литературе, русскому языку и обществознанию — все вопросы были разбиты по категориям в зависимости от типа ответа и рассортированы по отдельным таблицам; 2. интегрировать собранный датасет в виде различных бенчмарков в популярные open-source фреймворки — LM Evaluation Harness () и FastChat (). Подробнее о проекте смотрите в видео! И делимся важными ссылками: — датасет с заданиями ЕГЭ: — код парсера и лидерборда:

1,238 view

2109

899