[2024-09-21] Разбираю function call модели и обучаю nanoGPT

На данном стриме была рассмотрена крайне интересная и поражающая своими потенциалом тема, а именно function call модели и способы их применения. В первой части стрима я собрал прототип простого приложения типа чат, которое умеет выполнять три функции: поиск по arxiv, поиск по wiki и поиск в DuckDuckGo если нужно найти информацию за пределами arxiv или wikipedia. - Код проекта Functionstein - - Документация про function call от OpenAI - - Использованная через ollama модель - После того как данное решение было готово я полез в исходники nanoGPT, моя цель была переписать скрипт сбора обучающего датасета, сам датасет при этом был типа function call. Запустил обучение модели и немного прифигел от метрик, модель очень быстро пришла к маленькому loss, но... увы и ах, чуда не случилось. По завершению тренировки встроил модель в цикл function call и увидел кучу галлюцинаций, хотя даже для 12m модели nanoGPT был получен результат достойный уважения. - Мои правки в nanoGPT (ветка function_call) - - Поддержка nanoGPT в проекте Functionstein (ветка nanoGPT) - В общем эксперимент получился своеобразный, мне с ним возиться очень понравилось, надеюсь и вам тоже понравится смотреть! Сделать пожертвование: - - Ссылки: - - -
Back to Top