3.8.3 AIM/Aprendizaje por Refuerzo

3.8.3 AIM/Aprendizaje por Refuerzo

Temas:
Core Tier1

Procesos de Decisión de Markov (MDPs)
Iteración de valor e iteración de política
Q-learning y aprendizaje por diferencias temporales
Métodos de gradiente de política
Aprendizaje por refuerzo profundo

Objetivos de Aprendizaje (Learning Outcomes):
Core-Tier1:

Formular problemas como Procesos de Decisión de Markov [Usar]
Implementar iteración de valor y de política [Usar]
Aplicar Q-learning para RL libre de modelo [Usar]
Usar métodos de gradiente de política [Usar]

Generado por Ernesto Cuadros-Vargas , Sociedad Peruana de Computación-Peru, basado en el modelo de la Computing Curricula de IEEE-CS/ACM