Escuela Superior de Ingeniería Informática

cambiar a curso: 2016-17 2018-19

Grado en Ingeniería Informática

TRABAJOS FIN DE GRADO
curso: 2017-18

Estudio de mejoras de algoritmos de clasificación supervisada basados en árboles de decisión

Tecnologías Específicas

Computación

Descripcion y Objetivos

Nos centraremos en el problema del aprendizaje supervisado, donde a partir de un conjunto de datos etiquetados por expertos, nuestro objetivo será estimar un modelo que recoja este conocimiento de los datos y nos prediga las etiquetas correspondientes a nuevos datos de entrada.

Hoy en día el volumen de datos que se manejan es extraordinario en muchos ámbitos de la vida cotidiana. Tal explosión de datos se ha producido que no es posible el almacenamiento y/o manejo de éstos en sistemas de cómputo tradicionales. Para estos se han creado nuevos paradigmas de computo basados en clúster de computadores. Uno de los más utilizados es el denominado MapReduce. Existen varias implementaciones de este paradigma bajo las denominaciones de Hadoop y Spark, por ejemplo.

Para el problema del aprendizaje supervisado existen hoy en día dos estándares que pueden escalar a volúmenes de datos que encajen en el denominado BigData y que pueden ser implementados de forma natural en el framework MapRedcue. Estos modelos de alguna forma se basan en la agregación de modelos más simples aprendidos a partir de subconjuntos reducidos de datos.

Nuestro objetivo es el de diseñar algoritmos basados en este mismo principio para que puedan ser escalables y que se basen en la potencia demostrada en otros problemas del uso de modelos gráficos probabilísticos para la resolución del problema del aprendizaje supervisado.

Metodología y Competencias

La metodología de trabajo será la habitual en el ámbito científico, donde se estudiarán los algoritmos estado del arte para nuestro caso particular, los distintos enfoques de algoritmos de aprendizaje supervisado basados en modelos gráficos probabilísticos, propuestas de nuevos modelos y validación de los mismos con grandes volúmenes de datos y clúster de computadores basados en el framework MapReduce.

Plan de trabajo:

1)Estudio de los algortimos de arpenciaje basados en modelos graficos probabilísticos.

2)Estudio de los algoritmos estado del arte en BigData para este problema, concretamente randomForest.

3)Propuestas de desarrollo de algoritmos nuevos que siguiendo la metodología de randomForest, uitlice modelos sencillos gráficos probabilísticos para su posterior agregación.

4)Validación de los modelos propuestos.

Medios a utilizar

Cluster de computadores del laboratorio SIMD bajo Spark y Hadoop.

Todo lo necesario para su programación y manejo está disponible en el laboratorio.

Bibliografía

Breiman, Leo (2001). «Random Forests». Machine Learning 45 (1): 5–32. doi:10.1023/A:1010933404324.

Caruana, Rich; Karampatziakis, Nikos; Yessenalina, Ainur (2008). «An empirical evaluation of supervised learning in high dimensions». Proceedings of the 25th International Conference on Machine Learning (ICML).

Oded Maimon and Lior Rokach (2010). Data Mining and Knowledge Discovery Handbook. Springer, New York. ISBN 978-0-387-09823-4.

The Driving Need for Analytics in a Big Data World | http://www.datamashup.info/the-driving-need-for-analytics-in-a-big-data-world/

Jeffrey Dean, Sanjay Ghemawat, (2008), MapReduce: simplified data processing on large clusters, Communications of the ACM - 50th anniversary issue: 1958 - 2008, Volume 51 Issue 1, January 2008 Pages 107-113

Anand Rajaraman,Jeffrey David Ullman, (2012), Mining of Massive Datasets

Tutor

PUERTA CALLEJON, JOSE MIGUEL

Alumno

HORTELANO HARO, RUBÉN