cambiar a curso:   2019-20   2021-22


Grado en Ingeniería Informática


TRABAJOS FIN DE GRADO
curso: 2020-21

Diseño de ensembles de clasificadores probabilísticos: una propuesta escallable para alta dimensionalidad.


Tecnologías Específicas

Computación
 


Descripcion y Objetivos

El paradigma de la clasificación supervisada es sin duda la tarea más estudiada y también más aplicada en el aprendizaje automático. De entre las diferentes técnicas de clasificación automática, la basada en teoría de la probabilidad presenta la ventaja de (1) modelar de forma innata la incertidumbre presente en las relaciones entre las variables y (2) poder ofrecer una distribución de probabilidad (a posteriori) para la variable clase que nos indique la seguridad o confianza que tenemos en la clasificación propuesta.

En la actualidad, los métodos denominados de "ensemble" constituyen, junto con el aprendizaje profundo, las aproximaciones más exitosas a la clasificación supervisada. Un ensemble no es más que usar una colección de clasificadores en lugar de un único modelo, y agregar el resultado de los distintos modelos para obtener la clasificación global. Los distintos modelos pueden obtenerse aprendiendo a partir de: muestras (ligeramente) diferentes obtenidas de conjunto de entrenamiento, diferentes subconjuntos de variables predictoras, etc.

En el caso probabilístico han sido los algoritmos basados en la familia AnDE (Averaging N-Dimensional Estimators) los que de forma directa plantean un ensemble de modelos más simples y han obtenido muy buenos resultados. Sin embargo, si tenemos m variables, un ensemble tipo A1DE es constituido habitualmente por m clasificadores cada uno de ellos con m-1 variables predictoras, lo que genera clasificadores muy complejos en espacio si m es grande. Si pasamos a A2DE, entonces tendremos m2 clasificadores cada uno con m variables, y así sucesivamente. Evidentemente esto hace que en casos de alta dimensionalidad (m) la complejidad espacial se crezca exponencialmente y estos algoritmos pierdan su utilidad.

En este TFG pretendemos abordar el diseño de algoritmos que restrinjan el número de modelos y también el número de variables por modelo a considerar en el ensemble. En la literatura existen propuestas basadas en selección de modelos, pero nuestra idea es realizar la selección a partir de técnicas de aprendizaje estructural de bajo coste (cuadráticos) y comparar con los algoritmos que actualmente son estado del arte. Este TFG se enmarca en un proyecto de investigación en desarrollo actualmente: Título AVANCES EN CLASIFICACIÓN DÉBILMENTE SUPERVISADA: ESCALABILIDAD Y APLICACIONES EN ROBÓTICA SOCIAL E IMAGEN DIGITAL. (SBPLY/17/180501/000493).

 


Metodología y Competencias

Metodologia:

1. Revisión del estado del arte en los clasificadores probablísticos basados en ensembles (Familia AnDE)

2. Diseño de nuevos clasificadores AnDE compactos.

3. Propuesta de soluciones escalables para alta dimensionalidad.

4. Evaluación experimental.

5. Escritura de la memoria del TFG.

 

Competencias:

Se trabajarán principalmente (en distinto grado) las siguientes competencias específicas de la tecnología de computación:

  • Capacidad para evaluar la complejidad computacional de un problema, conocer estrategias algorítmicas que puedan conducir a su resolución y recomendar, desarrollar e implementar aquella que garantice el mejor rendimiento de acuerdo con los requisitos establecidos.
  • Capacidad para conocer los fundamentos, paradigmas y técnicas propias de los sistemas
    inteligentes y analizar, diseñar y construir sistemas, servicios y aplicaciones informáticas
    que utilicen dichas técnicas en cualquier ámbito de aplicación.
  • Capacidad para adquirir, obtener, formalizar y representar el conocimiento humano en una
    forma computable para la resolución de problemas mediante un sistema informático en
    cualquier ámbito de aplicación, particularmente los relacionados con aspectos de
    computación, percepción y actuación en ambientes entornos inteligentes.
  • Capacidad para conocer y desarrollar técnicas de aprendizaje computacional y diseñar e
    implementar aplicaciones y sistemas que las utilicen, incluyendo las dedicadas a extracción
    automática de información y conocimiento a partir de grandes volúmenes de datos.
 


Medios a utilizar

Ordenadores personales, compiladores y entornos de programación. Todo disponible en la ESIIAB.

 


Bibliografía

Libros y manuales de inteligencia artificial y aprendizaje automático. Libros y manuales de lenguajes de programación y librerías específicas de aprendizaje automático. Todo disponible en la ESIIAB y/o en internet.

 


Tutores


GAMEZ MARTIN, JOSE ANTONIO
PUERTA CALLEJON, JOSE MIGUEL
 

Alumno


TORRIJOS ARENAS, PABLO