Курс Deep Reinforcement Learning:
Сезон курсов:
В четвертой лекции:
Рассматривается случай MDP с неизвестными функциями награды и перехода между состояниями;
Рассмотрели подход Monte-Carlo и Temporal-Difference для нахождения Q-функции в этом случае;
Обсудили epsilon-жадные политики;
Вывили алгоритмы Monte-Carlo, SARSA и Q-learning
Наши соц.сети:
Telegram:
Вконтакте:
3 views
152
34
8 months ago 00:03:02 1
U.S. Air Force DRL Flight Show | Episode 4
11 months ago 00:00:53 1
DRL 2018 Level 4: Adventuredome | Drone Racing League
11 months ago 01:50:33 1
Mariana from Zaha Hadid Architects reviews Portfolios
1 year ago 01:04:01 1
ChatGPT, IA et fin du monde ? Avec Laurent Alexandre
1 year ago 00:24:49 1
Drone Racing Crash Course - with DRL 2019 Champion CaptainVanover
2 years ago 00:08:01 1
2023 Aston Martin DBX707 - Wild Luxury Sport SUV!
2 years ago 00:16:39 2
“WHY ME? THE EFFECTS OF ALCOHOL AND OTHER DRUGS ON DRIVING ABILITIES “ 1978 ANTI-DUI FILM XD66064