Universidad de Castilla-La Mancha
 
Escuela Superior de Ingeniería Informática

 

  cambiar a curso:   2022-23   2024-25



Grado en Ingeniería Informática


TRABAJOS FIN DE GRADO
curso: 2023-24

Aprendizaje por refuerzo aplicado a juegos de la plataforma Gymnasium


Tecnologías Específicas

Computación
 


Descripcion y Objetivos

Gymnasium https://gymnasium.farama.org/index.html (antes Openai Gym) es una plataforma para el desarrollo de algoritmos de aprendizaje por refuerzo en un conjunto de entornos que simulan una gran variedad de problemas y tareas, desde juegos simples como los juegos de la Atari hasta tareas de robótica más complejas. Una característica atractiva de esta plataforma es que tiene entornos ya predefinidos y una interfaz unificada para interactuar con estos entornos. De aquí nace Gym retro, que es una extensión de Gymnasium que te permite integrar juegos antiguos de los 90 bajo esta interfaz para entrenar algoritmos de aprendizaje por refuerzo que consigan jugar a estos juegos. Concretamente, en este trabajo, nos centraríamos en entrenar agentes para juegos de lucha. La idea sería, entrenar con diferentes algoritmos de aprendizaje por refuerzo y compararlos  para ver cómo se comportan cuando los enfrentas entre ellos.

Por tanto, en este TFG el objetivo es profundizar en la paltaforma de juegos y su entorno, programar diferentes algoritmos de aprendizaje por refuerzo, y estudiar y analizar su comportamiento y desempeño en los diferentes juegos seleccionados de Gymnasium.

 


Metodología y Competencias

  • Se estudiará la literatura actual y el software disponible en relación a los algoritmos de aprendizaje por refuerzo y, así como su combinación, o posible extensión (diseño).
  • Se estudiará la plataforma Gymasium, se seleccionará un subconjunto de juegos de lucha para probar los agentes implementados.
  • Se diseñarán e implementarán en Gymnasium los agentes usando las librerías seleccionadas.  Se podrían implementar desde cero algoritmos, o incluir variantes propias adaptadas.
  • Se realizará un estudio experimental, que conlleve la realización de una liga o similar donde todos los algoritmos se enfrenten entre ellos.
  • Todo quedará documentado en la memoria del TFG. 

 

Se trabajarán principalmente (en distinto grado) las siguientes competencias específicas de la tecnología de computación:

  • Capacidad para evaluar la complejidad computacional de un problema, conocer estrategias algorítmicas que puedan conducir a su resolución y recomendar, desarrollar e implementar aquella que garantice el mejor rendimiento de acuerdo con los requisitos establecidos.
  • Capacidad para conocer los fundamentos, paradigmas y técnicas propias de los sistemas inteligentes y analizar, diseñar y construir sistemas, servicios y aplicaciones informáticas que utilicen dichas técnicas en cualquier ámbito de aplicación.
  • Capacidad para adquirir, obtener, formalizar y representar el conocimiento humano en una forma computable para la resolución de problemas mediante un sistema informático en cualquier ámbito de aplicación, particularmente los relacionados con aspectos de computación, percepción y actuación en ambientes entornos inteligentes.
  • Capacidad para conocer y desarrollar técnicas de aprendizaje computacional y diseñar e implementar aplicaciones y sistemas que las utilicen, incluyendo las dedicadas a extracción automática de información y conocimiento a partir de grandes volúmenes de datos.
 


Medios a utilizar

Se prevé que gran parte de la implementación se desarrolle en Python, pues es el lenguaje donde se encuentran los algoritmos de aprendizaje que pretendemos emplear:

Se espera que el alumno tenga un dominio de dicho lenguaje de programación, y buenas habilidades como programador. Se necesitará un ordenador de rendimiento CPU medio-alto, buena memoria RAM y buena capacidad de almacenamiento en disco, dado que se pueden llegar a almacenar y producir muchos datos, o bien el uso de entornos en la nube, como podrían ser los proporcionados por Google Colab o Kaggle. 

 


Bibliografía

  • Libros y manuales de inteligencia artificial y aprendizaje por refuerzo. 
  • Libros y manuales de lenguajes de programación y librerías específicas de aprendizaje por refuerzo. [Todo disponible en la ESIIAB y/o en internet.]
 


Tutor


FLORES GALLEGO, MARIA JULIA
 

Alumno


PICAZO MUÑOZ, MIGUEL
 

 

Sindicación  Sindicación  Sindicación  Sindicación

Curso: 2023-24
© Escuela Superior de Ingeniería Informática
Edificio Infante Don Juan Manuel
Avda. de España s/n
02071 Albacete
Tfno: 967 59 92 00 - Fax: 967 59 92 24

informatica.ab@uclm.es
aviso legal
generar código QR de la página