DRL Course | Dynamic Programming. Policy and Value Iterations
Курс Deep Reinforcement Learning:
Сезон курсов:
В третьей лекции:
Поговорили про принцип динамического программирования;
Рассмотрели понятия v- и q-функций, а также понятия оптимальной политики;
Выписали уравнения Белламана и научились их решать методами Policy Iteration и Value Iteration.
Наши соц.сети:
Telegram:
Вконтакте:
3 views
207
49
3 months ago 01:30:49 11
DRL Course | Introduction to Reinforcement Learning. Cross-Entropy Method