3.8.3 AIM/Aprendizaje por Refuerzo

Temas:
Core Tier1

Objetivos de Aprendizaje (Learning Outcomes):
Core-Tier1:

  1. Formular problemas como Procesos de Decisión de Markov [Usar]
  2. Implementar iteración de valor y de política [Usar]
  3. Aplicar Q-learning para RL libre de modelo [Usar]
  4. Usar métodos de gradiente de política [Usar]



Generado por Ernesto Cuadros-Vargas , Sociedad Peruana de Computación-Peru, basado en el modelo de la Computing Curricula de IEEE-CS/ACM