cambiar a curso:   2019-20   2021-22


Grado en Ingeniería Informática


TRABAJOS FIN DE GRADO
curso: 2020-21

Uso de Modelos de Redes Profundas para el Cálculo de Similaridad en Procesamiento de Lenguaje Natural


Tecnologías Específicas

Computación
 


Descripcion y Objetivos

A menudo necesitamos codificar texto, incluyendo palabras, oraciones o documentos en vectores de alta dimensión. La incrustación de oraciones es un paso importante de varias tareas en el Procesamiento de Lenguaje Natural o (PLN), como el análisis de sentimientos y el resumen extractivo.

En el pasado, se utilizaban principalmente codificadores binarios, el modelo vectorial TF-IDF (también conocido como frecuencia de términos normalizada). Sin embargo, la información semántica y sintáctica de las palabras en su contexto no se capturaba con estas técnicas. Los recientes en modelos basados en Redes Profundas permiten codificar frases o palabras en formas más adecuadas. La técnica word2vec y el modelo de lenguaje BERT son dos importantes representantes de estas técnicas.

El principal objetivo de este proyecto será poder utilizar la librería de código abierto sent2vec para permitir codificar oraciones con gran flexibilidad y poder utilizarlas en el cálculo de similaridad de documentos en alguna aplicación de análisis de opiniones al estilo TripAdvisor/Yelp.

 


Metodología y Competencias

METODOLOGÍA:

  1. Revisar el contexto del problema y la literatura disponible. Redes Profundas, modelos Word2Vec, BERT (Transfomers), Modelos Sent2Vec.
  2. Realizar un análisis exploratorio de los datos existentes.
  3. Diseñar/implementar los modelos basados en las librerías exitentes pera el clustering de opiniones.
  4. Documentar todo el proceso anterior para que sea repetible.
  5. Estimar la bondad de los modelos finales (seleccionados) sobre el conjunto de datos de test reservado a tal efecto.

COMPETENCIAS:

Se trabajarán principalmente (en distinto grado) las siguientes competencias específicas de la tecnología de computación:

  • Capacidad para evaluar la complejidad computacional de un problema, conocer estrategias algorítmicas que puedan conducir a su resolución y recomendar, desarrollar e implementar aquella que garantice el mejor rendimiento de acuerdo con los requisitos establecidos.
  • Capacidad para conocer los fundamentos, paradigmas y técnicas propias de los sistemas inteligentes y analizar, diseñar y construir sistemas, servicios y aplicaciones informáticas que utilicen dichas técnicas en cualquier ámbito de aplicación.
  • Capacidad para adquirir, obtener, formalizar y representar el conocimiento humano en una forma computable para la resolución de problemas mediante un sistema informático en cualquier ámbito de aplicación, particularmente los relacionados con aspectos de computación, percepción y actuación en ambientes entornos inteligentes.
  • Capacidad para conocer y desarrollar técnicas de aprendizaje computacional y diseñar, implementar aplicaciones y sistemas que las utilicen, incluyendo las dedicadas a extracción automática de información y conocimiento a partir de grandes volúmenes de datos.
 


Medios a utilizar

Todos los medios que se utilizan para la realización de este trabajo fin de grado están disponibles en la ESII y estarán a disposición de alumno que realice este trabajo.

Ordenadores, compiladores, APIs específicas para el desarrollo de las propuestas, etc.

 


Bibliografía

Libros y manuales de aprendizaje automático, procesamiento del lenguaje natural y ciencia/minería de datos.

Libros y manuales de lenguajes de programación y librerías específicas (machine learning, deep learning) .Todo disponible en la ESIIAB y/o en internet.

 


Tutores


PUERTA CALLEJON, JOSE MIGUEL
OSSA JIMENEZ, LUIS DE LA
 

Alumno


LORENZO ALFARO, DAVID