Universidad de Castilla-La Mancha
 
Escuela Superior de Ingeniería Informática

 

  cambiar a curso:   2018-19   2020-21



Grado en Ingeniería Informática


TRABAJOS FIN DE GRADO
curso: 2019-20

Deep Reinforcement Learning para crear un jugador experto para el juego de mesa Tablut


Tecnologías Específicas

Computación
 


Descripcion y Objetivos

El juego de mesa Tablut consta de un tablero de 9x9 con la siguiete descripción y reglas: http://www.ludoteka.com/tablut.html. El objetivo principal del TFG es utilizar técnicas de Aprendizaje Profundo y Aprendizaje por refuerzo para diseñar un jugador experto competente en el juego descrito.

Para ello se utilizaran las tecnicas más novedosas provenientes del Aprendizaje Automático inspiradas en el modelo de AlphaZero.

Los objetivos particulares para el desarrollo del proyecto consistirá:

1) creación de un entorno de juego y/o entorno frontend para poder ejecutarlo en diferentes plataformas.

2) estudio e implementación de las redes profundas para el aprendizaje su inclusión en el aprendizaje por refuerzo.

3) estudio e implementación de las técnicas de búsqueda y aprendizaje por refuerzo.

4) comparación con otro tipo de técnicas basadas en inteligencia artificial en la búsqueda con adversarios.

 


Metodología y Competencias

La metodología a seguir será la siguiente:

1) Estudio de las técnicas incluidas en los métodos estilo AlphaZero. Aprendizaje Profundo. Montec Carlo Tree Search y Aprendizaje por Refuerzo.

2) Estudio de las diferentes APIs para el uso de este tipo de ténicas. Keras, Phyton.

3) Implementación de todas las técnicas necesarias y aprendizaje de los modelos.

4) Evaluación de los jugadores diseñados.

5) Inclusión en el juego para poder jugar con los agentes diseñados mediante un entorno y frontend para su ejecución en diferentes entornos o via navegador.

Las competencias que se trabajan en el desarrollo de este proyecto serán:

[CM1] Capacidad para tener un conocimiento profundo de los principios fundamentales y modelos de la computación y saberlos aplicar para interpretar, seleccionar, valorar, modelar, y crear nuevos conceptos, teorías, usos y desarrollos tecnológicos relacionados con la informática.
[CM4] Capacidad para conocer los fundamentos, paradigmas y técnicas propias de los sistemas inteligentes y analizar, diseñar y construir sistemas, servicios y aplicaciones informáticas que utilicen dichas técnicas en cualquier ámbito de aplicación.
[CM5] Capacidad para adquirir, obtener, formalizar y representar el conocimiento humano en una forma computable para la resolución de problemas mediante un sistema informático en cualquier ámbito de aplicación, particularmente los relacionados con aspectos de computación, percepción y actuación en ambientes o entornos inteligentes.
[CM6] Capacidad para desarrollar y evaluar sistemas interactivos y de presentación de información compleja y su aplicación a la resolución de problemas de diseño de interacción persona computadora.
[CM7] Capacidad para conocer y desarrollar técnicas de aprendizaje computacional y diseñar e implementar aplicaciones y sistemas que las utilicen, incluyendo las dedicadas a extracción automática de información y conocimiento a partir de grandes volúmenes de datos.

 


Medios a utilizar

Todos los medios necesarios para el desarrollo del TFG son de distribución gratuita, open-source y disponibles para su desarrollo:

1) TensorFlow, Keras, Phyton y los paquetes necesarios para su desarrollo.

2) Ordernador personal.

3) Bibliografía necesaria para su documentacion y estudio.

 


Bibliografía

Silver, David & Schrittwieser, Julian & Simonyan, Karen & Antonoglou, Ioannis & Huang, Aja & Guez, Arthur & Hubert, Thomas & Baker, Lucas & Lai, Matthew & Bolton, Adrian & Chen, Yutian & Lillicrap, Timothy & Hui, Fan & Sifre, Laurent & Driessche, George & Graepel, Thore & Hassabis, Demis. (2017). Mastering the game of Go without human knowledge. Nature. 550. 354-359. 10.1038/nature24270. 

A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play

BY DAVID SILVER, THOMAS HUBERT, JULIAN SCHRITTWIESER, IOANNIS ANTONOGLOU, MATTHEW LAI, ARTHUR GUEZ, MARC LANCTOT, LAURENT SIFRE, DHARSHAN KUMARAN, THORE GRAEPEL, TIMOTHY LILLICRAP, KAREN SIMONYAN, DEMIS HASSABIS

SCIENCE07 DEC 2018 : 1140-1144

 


Tutores


PUERTA CALLEJON, JOSE MIGUEL
GAMEZ MARTIN, JOSE ANTONIO
 

Alumno


MARTÍNEZ CABAÑERO, MARIO

 

 

Sindicación  Sindicación  Sindicación  Sindicación

Curso: 2019-20
© Escuela Superior de Ingeniería Informática
Edificio Infante Don Juan Manuel
Avda. de España s/n
02071 Albacete
Tfno: 967 59 92 00 - Fax: 967 59 92 24

informatica.ab@uclm.es
aviso legal
generar código QR de la página