cambiar a curso:   2016-17   2018-19


Grado en Ingeniería Informática


TRABAJOS FIN DE GRADO
curso: 2017-18

Estudio de mejoras de algoritmos de clasificación supervisada basados en árboles de decisión


Tecnologías Específicas

Computación
 


Descripcion y Objetivos

Nos centraremos en el problema del aprendizaje supervisado, donde a partir de un conjunto de datos etiquetados por expertos, nuestro objetivo será estimar un modelo que recoja este conocimiento de los datos y nos prediga las etiquetas correspondientes a nuevos datos de entrada.

Hoy en día el volumen de datos que se manejan es extraordinario en muchos ámbitos de la vida cotidiana. Tal explosión de datos se ha producido que no es posible el almacenamiento y/o manejo de éstos en sistemas de cómputo tradicionales. Para estos se han creado nuevos paradigmas de computo basados en clúster de computadores. Uno de los más utilizados es el denominado MapReduce. Existen varias implementaciones de este paradigma bajo las denominaciones de Hadoop y Spark, por ejemplo.

Para el problema del aprendizaje supervisado existen hoy en día dos estándares que pueden escalar a volúmenes de datos que encajen en el denominado BigData y que pueden ser implementados de forma natural en el framework MapRedcue. Estos modelos de alguna forma se basan en la agregación de modelos más simples aprendidos a partir de subconjuntos reducidos de datos.

Nuestro objetivo es el de diseñar algoritmos basados en este mismo principio para que puedan ser escalables y que se basen en la potencia demostrada en otros problemas del uso de modelos gráficos probabilísticos para la resolución del problema del aprendizaje supervisado.

 


Metodología y Competencias

La metodología de trabajo será la habitual en el ámbito científico, donde se estudiarán los algoritmos estado del arte para nuestro caso particular, los distintos enfoques de algoritmos de aprendizaje supervisado basados en modelos gráficos probabilísticos, propuestas de nuevos modelos y validación de los mismos con grandes volúmenes de datos y clúster de computadores basados en el framework MapReduce.

Plan de trabajo:

1)Estudio de los algortimos de arpenciaje basados en modelos graficos probabilísticos.

2)Estudio de los algoritmos estado del arte en BigData para este problema, concretamente randomForest.

3)Propuestas de desarrollo de algoritmos nuevos que siguiendo la metodología de randomForest, uitlice modelos sencillos gráficos probabilísticos para su posterior agregación.

4)Validación de los modelos propuestos.

 


Medios a utilizar

Cluster de computadores del laboratorio SIMD bajo Spark y Hadoop.

Todo lo necesario para su programación y manejo está disponible en el laboratorio.

 


Bibliografía

 


Tutor


PUERTA CALLEJON, JOSE MIGUEL
 

Alumno


HORTELANO HARO, RUBÉN