TRABAJOS FIN DE GRADO curso: 2019-20
Deep Reinforcement Learning para crear un jugador experto para el juego de mesa Tablut |
Tecnologías Específicas
Computación
Descripcion y Objetivos
El juego de mesa Tablut consta de un tablero de 9x9 con la siguiete descripción y reglas: http://www.ludoteka.com/tablut.html. El objetivo principal del TFG es utilizar técnicas de Aprendizaje Profundo y Aprendizaje por refuerzo para diseñar un jugador experto competente en el juego descrito.
Para ello se utilizaran las tecnicas más novedosas provenientes del Aprendizaje Automático inspiradas en el modelo de AlphaZero.
Los objetivos particulares para el desarrollo del proyecto consistirá:
1) creación de un entorno de juego y/o entorno frontend para poder ejecutarlo en diferentes plataformas.
2) estudio e implementación de las redes profundas para el aprendizaje su inclusión en el aprendizaje por refuerzo.
3) estudio e implementación de las técnicas de búsqueda y aprendizaje por refuerzo.
4) comparación con otro tipo de técnicas basadas en inteligencia artificial en la búsqueda con adversarios.
Metodología y Competencias
La metodología a seguir será la siguiente:
1) Estudio de las técnicas incluidas en los métodos estilo AlphaZero. Aprendizaje Profundo. Montec Carlo Tree Search y Aprendizaje por Refuerzo.
2) Estudio de las diferentes APIs para el uso de este tipo de ténicas. Keras, Phyton.
3) Implementación de todas las técnicas necesarias y aprendizaje de los modelos.
4) Evaluación de los jugadores diseñados.
5) Inclusión en el juego para poder jugar con los agentes diseñados mediante un entorno y frontend para su ejecución en diferentes entornos o via navegador.
Las competencias que se trabajan en el desarrollo de este proyecto serán:
[CM1] Capacidad para tener un conocimiento profundo de los principios fundamentales y modelos de la computación y saberlos aplicar para interpretar, seleccionar, valorar, modelar, y crear nuevos conceptos, teorías, usos y desarrollos tecnológicos relacionados con la informática.
[CM4] Capacidad para conocer los fundamentos, paradigmas y técnicas propias de los sistemas inteligentes y analizar, diseñar y construir sistemas, servicios y aplicaciones informáticas que utilicen dichas técnicas en cualquier ámbito de aplicación.
[CM5] Capacidad para adquirir, obtener, formalizar y representar el conocimiento humano en una forma computable para la resolución de problemas mediante un sistema informático en cualquier ámbito de aplicación, particularmente los relacionados con aspectos de computación, percepción y actuación en ambientes o entornos inteligentes.
[CM6] Capacidad para desarrollar y evaluar sistemas interactivos y de presentación de información compleja y su aplicación a la resolución de problemas de diseño de interacción persona computadora.
[CM7] Capacidad para conocer y desarrollar técnicas de aprendizaje computacional y diseñar e implementar aplicaciones y sistemas que las utilicen, incluyendo las dedicadas a extracción automática de información y conocimiento a partir de grandes volúmenes de datos.
Medios a utilizar
Todos los medios necesarios para el desarrollo del TFG son de distribución gratuita, open-source y disponibles para su desarrollo:
1) TensorFlow, Keras, Phyton y los paquetes necesarios para su desarrollo.
2) Ordernador personal.
3) Bibliografía necesaria para su documentacion y estudio.
Bibliografía
Silver, David & Schrittwieser, Julian & Simonyan, Karen & Antonoglou, Ioannis & Huang, Aja & Guez, Arthur & Hubert, Thomas & Baker, Lucas & Lai, Matthew & Bolton, Adrian & Chen, Yutian & Lillicrap, Timothy & Hui, Fan & Sifre, Laurent & Driessche, George & Graepel, Thore & Hassabis, Demis. (2017). Mastering the game of Go without human knowledge. Nature. 550. 354-359. 10.1038/nature24270.
A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play
BY DAVID SILVER, THOMAS HUBERT, JULIAN SCHRITTWIESER, IOANNIS ANTONOGLOU, MATTHEW LAI, ARTHUR GUEZ, MARC LANCTOT, LAURENT SIFRE, DHARSHAN KUMARAN, THORE GRAEPEL, TIMOTHY LILLICRAP, KAREN SIMONYAN, DEMIS HASSABIS
SCIENCE07 DEC 2018 : 1140-1144
Tutores PUERTA CALLEJON, JOSE MIGUEL GAMEZ MARTIN, JOSE ANTONIO | Alumno MARTÍNEZ CABAÑERO, MARIO
|
|