Если очень кратко, вчера я занимался доведением до ума проекта impruver, в частности в нём были проблемы с генератором датасета типа чат, с тем как хранить конфигурацию и с тем работают скрипты тренировки.
В генераторе датасетов типа чат удалось решить ряд проблем связанных с токенизацией и поправить интеграционные тесты.
-
-
Следом была реализованна базовая конфигурация, структура которой похожа на то, что реализовано в torchtune.
-
-
После чего был реализован скрипт предобработки датасета, вытягивающий данные из HuggingFace и преобразующий их.
-
После чего внесены правки в скрипт обучения через трансформеры, оригинальная версию которого была позаимствованна из проекта Saiga.
-
-
Градиенты спускаются...
Сделать пожертвование:
-
-
Ссылки:
-
-
-
13 views
1505
517
1 month ago 02:15:51 1
Папич vs. Радан, консорт Микеллы [нарезка всех траев]
4 months ago 05:19:31 1
HTML верстка сайта каталога интернет магазина на Gulp сборке. Моб. адаптация. GitHub pages. Часть 2