Escuela Superior de Ingeniería Informática

cambiar a curso: 2017-18 2019-20

Grado en Ingeniería Informática

TRABAJOS FIN DE GRADO
curso: 2018-19

Desarrollo de un detector de emociones a partir de la voz

Tecnologías Específicas

Computación

Descripcion y Objetivos

Con la realización de este proyecto se pretende llevar a cabo un estudio de las principales técnicas que existen para extraer características de la voz humana: tono, timbre, frecuencia, etc. Estas características, a su vez, se estudiarán para ver cuáles de ellas reflejan mayor información emocional, esto es, información acerca del estado afectivo en el que se encuentra la persona cuya voz se está analizando. Por tanto, el objetivo principal de este proyecto consiste en crear un detector de emociones que sea capaz de analizar la voz de una persona y emitir un veredicto sobre las emociones que se han detectado en la misma.

Los objetivos específicos de este proyecto son:

Estudiar métodos de procesamiento de señales que nos permitan extraer características de la voz contenida en una pista de audio.

Estudiar los distintos algoritmos de clasificación (SVM, Arboles de decisión, Red neuronal, regresión logística, etc.) que puedan aplicarse para aprender a detectar emociones.

Obtener recursos para entrenar y evaluar el detector de emociones resultante.

Evaluar el detector mediante un caso de estudio/aplicación.

Metodología y Competencias

Metodología.

Revisar el contexto del problema y la literatura disponible.

Captación de los datos: búsqueda de conjuntos de datos existentes y herramientas de preprocesado.

Análisis exploratorio de los datos existentes y extracción de características.

Determinar las métricas que se usarán para guiar el proceso de búsqueda y selección de modelos. Determinar las métricas de evaluación y el proceso de validación a seguir.

Ciclar sobre los siguientes pasos: (Proceso de descubrimiento):

Preprocesamiento de datos (selección de variables, construcción de variables, etc.)

Determinar y/o adaptar las técnicas de aprendizaje automático a emplear.

Obtener y validar modelos.

Despliegue de los modelos seleccionados.

Redactar la memoria

Las competencias de la intensificación más relacionadas con el TFG son las siguientes:

Capacidad para conocer los fundamentos, paradigmas y técnicas propias de los sistemas inteligentes y analizar, diseñar y construir sistemas, servicios y aplicaciones informáticas que utilicen dichas técnicas en cualquier ámbito de aplicación.

Capacidad para adquirir, obtener, formalizar y representar el conocimiento humano en una forma computable para la resolución de problemas mediante un sistema informático en cualquier ámbito de aplicación, particularmente los relacionados con aspectos de computación, percepción y actuación en ambientes entornos inteligentes.

Capacidad para desarrollar y evaluar sistemas interactivos y de presentación de información compleja y su aplicación a la resolución de problemas de diseño de interacción persona computadora.

Capacidad para conocer y desarrollar técnicas de aprendizaje computacional y diseñar e implementar aplicaciones y sistemas que las utilicen, incluyendo las dedicadas a extracción automática de información y conocimiento a partir de grandes volúmenes de datos.

Medios a utilizar

Ordenadores personales, compiladores y entornos de programación. Todo disponible en la ESIIAB.

Bibliografía

S. Casale, A. Russo, G. Scebba, and S. Serrano, “Speech emotion classification using Machine Learning algorithms,” in Proceedings - IEEE International Conference on Semantic Computing 2008, ICSC 2008, 2008, pp. 158–165.

P. B. Dasgupta, “Detection and Analysis of Human Emotions through Voice and Speech Pattern Processing”, in International Journal of Computer Trends and Technology (IJCTT), 2017.

Valery A. Petrushin, “Emotion recognition in speech signal: experimental study, development, and application”, in Sixth International Conference on Spoken Language Processing, ICSLP 2000 / INTERSPEECH 2000, 2000, pp. 222—225.

J. Tao and T. Tan, “Affective computing: A review,” Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics), vol. 3784 LNCS, pp. 981–995, 2005.

T. Vogt, E. André, and N. Bee, “EmoVoice — A Framework for Online Recognition of Emotions from Voice,” in Perception in Multimodal Dialogue Systems, Berlin, Heidelberg: Springer Berlin Heidelberg, 2008, pp. 188–199.

The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS). https://zenodo.org/record/1188976#.W8sGFmgzbIU

Base de datos con voz emocional en estonio. http://peeter.eki.ee:5000/

Toronto emotional speech set (TESS). https://tspace.library.utoronto.ca/handle/1807/24487

Multilingual Emotional Speech Database. http://universal.elra.info/product_info.php?cPath=37_39&products_id=62

Tutores

RUIZ PENICHET, VICTOR MANUEL
GAMEZ MARTIN, JOSE ANTONIO

Alumno

SÁNCHEZ RUIZ, MÓNICA