2.8.3 AIM/Aprendizaje por Refuerzo
Temas:
Core Tier1
- Procesos de Decisión de Markov (MDPs)
- Iteración de valor e iteración de política
- Q-learning y aprendizaje por diferencias temporales
- Métodos de gradiente de política
- Aprendizaje por refuerzo profundo
Objetivos de Aprendizaje (Learning Outcomes):
Core-Tier1:
- Formular problemas como Procesos de Decisión de Markov [Usar (Usage)]
- Implementar iteración de valor y de política [Usar (Usage)]
- Aplicar Q-learning para RL libre de modelo [Usar (Usage)]
- Usar métodos de gradiente de política [Usar (Usage)]
Generado por Ernesto Cuadros-Vargas , Sociedad Peruana de Computación-Peru, basado en el modelo de la Computing Curricula de IEEE-CS/ACM