Reinforcement Learning 5: Методы на основе политики агента

В этом видео разберемся с новой группой методов, которые основаны непосредственно на политике агента. Познакомимся с методом REINFORCE, рассмотрим комбинацию алгоритмов Actor Critic, основанных на значениях, похожих на Policy Gradient и Q-Learning. In this video, we will understand a new group of methods that are based directly on the agent’s policy. Let’s get acquainted with the REINFORCE method, consider a combination of Actor Critic algorithms based on values similar to Policy Gradient and Q-Learning. 00:00:00 Начало видео 00:01:05 Deep Q-Network (DQN) method 00:03:26 Policy function 00:05:34 Policy Gradients method 00:17:14 Метод REINFORCE 00:23:51 Actor-Critic 00:25:05 A2C (Advantage Actor-Critic) 00:34:00 A3C (Asynchronous Advantage Actor-Critic) 00:45:40 Actor-Critic for continuous action spaces 00:53:25 Actor-Critic: Model 00:56:58 Actor-Critic: Policy and Training 01:10:07 Mountain Car Continuous 01:14:42 Actor-Critic: Гиперпараметры Ukrainian IT-company. Machine Learning | Data Science | Artificial Intelligence #artificialintelligence #MachineLearning #ReinforcementLearning #ИскусственныйИнтеллект #Машинноеобучение

8 views