Основные алгоритмы обучения с подкреплением SARSA и Q-learning // Демо-занятие курса Reinforcement Learning
На занятии мы разберем:
- что такое обучение с подкреплением и чем оно принципиально отличается от других подходов машинного обучения;
- что такое функция ценности состояния и функция ценности действия-состояния, как они связаны между собой и как помогают нашему агенту учиться;
- уравнение Беллмана - основное уравнение в обучении с подкреплением;
- метод SARSA - метод итеративного обучения агента;
- метод Q-learning - метод итеративного оптимального обучения агента.
Занятие будет полезно начинающим специалистам по машинному обучению, которые стремятся расширить свой набор навыков и инструментов обучением с подкреплением.
На практической части мы на Python “с нуля“ без использования каких-либо фреймворков реализуем два алгоритма обучения с подкреплением и убедимся, что наш агент успешно обучается.
«Reinforcement Learning» -
Преподаватель: Игорь Стурейко - (к.ф.-м.н.) Teamlead, главный инженер
Дополнительные материалы:
Пройдите опрос по итогам мероприятия -
Следите за новостями проекта:
- Telegram:
- ВКонтакте:
- LinkedIn:
- Хабр:
103 views
12
6
2 months ago 01:10:05 1
Mentor In Tech 6.0: Обзор технологий искусственного интеллекта
2 months ago 00:18:45 1
НОТА в ООН от Правительства СССР -
2 months ago 00:07:02 5
РЕАКЦИЯ: Парень гитариста. Пердящая Базука. 5 лет. Итоги.