Escuela Superior de Ingeniería Informática

cambiar a curso: 2015-16 2017-18

Grado en Ingeniería Informática

TRABAJOS FIN DE GRADO
curso: 2016-17

Preprocesado y extracción de características de bases de datos de procesamiento de lenguaje natural obtenidas mediante crowdsourcing

Tecnologías Específicas

Computación

Descripcion y Objetivos

En este trabajo se pretende extraer características de diferentes bases de datos relacionadas con el procesamiento de lenguaje natural en el area de aprendizaje automático a partir de crowdsourcing. Este area engloba las técnicas de aprendizaje con bases de datos etiquetadas por múltiples anotadores, expertos o no
en la materia del problema, permitiendo la obtención de grandes cantidades de etiquetas en un tiempo relativamente bajo. Esto permite tanto reducir costes a la hora de conseguir datos para la elaboración de modelos de predicción, como afrontar problemas que en muchos casos serían imposibles de abordar. Para la reducción de costes se tienen ejemplos como Amazon Mechanical Turk o Crowdflower, donde profesionales e investigadores pueden obtener bases de datos para sus experimentos de forma sencilla y económica. En el caso de problemas que serían imposibles de abordar, podemos encontrar el problema de la identificación de masas en una radiografía, en la que la única forma de hacer una identificación segura (para aprovecharla en un algoritmo de aprendizaje automático) sería la realización de una biopsia. Sin embargo, sería posible obtener información valiosa (y menos costosa e invasiva) a partir de un grupo de expertos en esta identificación.

En este trabajo se realizará una tarea de procesado y extracción de características de bases de datos orientadas a problemas de procesamiento del lenguaje natural en las que se usan técnicas de crowdsourcing para su obtención. Como objetivos se marcan:
- Obtener un estado del arte de los problemas de procesamiento del lenguaje natural a los que se intenta dar solución con técnicas crowd.
- Recopilación de bases de datos de procesamiento del lenguaje natural obtenidas mediante crowdsourcing.
- Preprocesado y extracción de características de las bases de datos obtenidas para su uso en algoritmos de aprendizaje automático.
.

Metodología y Competencias

Para llevar a cabo este TFG el alumno deberá seguir una serie de fases relacionadas con los objetivos del trabajo:
1. Lectura de bibliografía relacionada.
2. Estudio de las herramientas necesarias.
3. Recopilación de bases de datos de la literatura.
4. Preprocesado y extracción de características.
5. Evaluación de las bases de datos obtenidas mediante algoritmos de aprendizaje automático.

Medios a utilizar

- Lenguajes de programación adecuados para el análisis de datos.
- Librerías de procesamiento de lenguaje natural.
- Bases de datos crowd para uso público.
- Bases de datos científicas.
- Ordenador de sobremesa y/o portátil.

Bibliografía

- Documentación del lenguaje de programación elegido.

- Librerías disponibles de procesamiento de lenguaje natural.

- Artículos en revistas científicas de prestigio

Tutor

ALEDO SÁNCHEZ, JUAN ÁNGEL

Tutor

Alumno