Escuela Superior de Ingeniería Informática

Universidad de Castilla-La Mancha

Futuros Estudiantes Foreign Students Estudiantes Antiguos Estudiantes Empresas	WebMail ESII Net

Escuela Superior de Ingeniería Informática

La Escuela
- Conócenos
- Órganos de Gobierno
- Política de Calidad
- Personal
- Departamentos
- Instalaciones
- ¿Cómo llegar?
Grado
- Datos del Título
- Justificación
- Objetivos y Competencias
- Visión General del Título
- Acceso a los Estudios
- Plan de Estudios
- Opción Bilingüe
- Horarios
- Exámenes
- Normativa
- Reconocimiento de Créditos
- Trabajos Fin de Grado
- Tribunales TFGs
- Coordinación de la carga
- Modo evaluación
Máster: MUII
- Videos de MUii
- Web Oficial
- Perfil ingreso recomendado
- Plan de estudios
- Trabajo Fin de Máster
- Tribunales TFMs
- Empresas involucradas
- Horarios
- Exámenes
- Profesorado
- Coordinación de carga
- Contacto
Doctorado
Títulos a Extinguir
- I.T. Informática Sistemas
- I.T. Informática de Gestión
- I. Informática
- Horarios
- Exámenes
- Normativa
- Calendario de Extinción
- Adaptaciones al Grado
- Proyectos fin de Carrera
Investigación

cambiar a curso: 2020-21 2022-23

Usted está en: Inicio -> Grado en Ingeniería Informática -> 42358

Grado en Ingeniería Informática

TRABAJOS FIN DE GRADO
curso: 2021-22

Técnicas de aprendizaje automático para la clasificación de emociones en música

Tecnologías Específicas

Computación

Descripcion y Objetivos

La disciplina conocida como "Music Information Retrieval (MIR)" en inglés, que podría denominarse Recuperación de Información Musical en español, es uno de los campos de aplicación de la Inteligencia Artificial que más en auge están actualmente. Existen muchos subcampos de gran interés como pueden ser el de detección de género, los sistemas de recomendación, la generación de playlists o aquellos modelos que tratan con las emociones asociadas. Incluso, hay trabajos que van un paso más allá e intentan crear música, por ejemplo, a partir del estilo musical de un compositor.

Cuando se trabaja con música (o audio en general) la entrada está asociada a procesamiento de la señal, pero actualmente los datos de entrada suelen estar enriquecidos con etiquetas que pueden proporcionar mucha información (autor, cantante, género, año, tema, etc…). Incluso, si es una canción, se puede adjuntar el texto con sus letras. Hay por tanto mucha información disponible, que a veces se puede encontrar en datasets ya publicados. Dos de los más conocidos y con más datos son: Million Song Dataset - MSD (enlace: http://millionsongdataset.com/) y MuMu (https://www.upf.edu/web/mtg/mumu). En el ámbito de las emociones podemos encontrar diferentes datasets que son de menor dimensionalidad. Por ejemplo:

Soundtracks: https://www.jyu.fi/hytk/fi/laitokset/mutku/en/research/projects2/past-projects/coe/materials/emotion/soundtracks/Index

Emotifydata: http://www2.projects.science.uu.nl/memotion/emotifydata/

DEAM dataset (The MediaEval Database for Emotional Analysis of Music): https://cvml.unige.ch/databases/DEAM/

MOODetector, que ofrece diferentes conjuntos: http://mir.dei.uc.pt/downloads.html

En este caso, nos vamos a centrar en el subcampo de reconocimiento de emociones en música (MER, del inglés Music emotion recognition). Esta disciplina empezó a cobrar relevancia hace una década y se ha convertido en un área importante, ya que en la sociedad actual las redes sociales y las plataformas musicales han alcanzado gran popularidad de uso. Por tanto, la capacidad de poder abordar el aspecto emocional de la música resulta de gran interés desde diversos puntos de vista. Originalmente, el objetivo del MER es el de diseñar/aprender sistemas que puedan estimar las reacciones emocionales de la persona que escucha una canción. Este concepto puede extenderse, ya que no siempre coinciden la emoción que el autor/compositor de la música trata de transmitir (intended emotion) con la que percibe una persona (emotion perception) en particular, e incluso se puede distinguir entra la emoción que se percibe y la que realmente se siente (emotion induction).

Por otro lado, cuando se aplica aprendizaje automático al reconocimiento de emociones en música, existen varios enfoques \cite{yang2012machine}, siendo los dos principales: (1) considerar la emoción como una etiqueta dentro de un conjunto de etiquetas predefinidas (por ejemplo: \{alegre, triste, enfadado, temeroso, tierno\}) en cuyo caso se abordaría como un problema de clasificación; (2) el enfoque dimensional, donde las emociones se definen sobre un número de dimensiones o ejes, como en el trabajo de Russell. En este caso como se trata de determinar dos valores numéricos, que al final es un vector 2D, si el problema se aborda directamente así, se resolvería con técnicas de regresión. Los modelos tratarán de predecir los valores de emoción que representan el contenido afectivo de una canción, de tal forma que cada pieza musical sería un punto en el espacio de emociones. En este trabajo vamos a trabajar con una combinación de ambos enfoques, como veremos posteriormente.

En el desarrollo de este trabajo fin de carrera el estudiante va a emplear algoritmos de aprendizaje supervisado (ya sea regresión o clasificación, según la etiqueta), para predicir la emoción en un segmento musical, que puede ser una canción o una parte de ella. Habrá que estudiar y analizar previamente la bibliografía mencionada, y hacer un estudio exhaustivo de los datasets existentes, y de las características (atributos) que éstos ofrecen. Se podrá seleccionar uno o varios de esos subconjuntos, en vista de que los algoritmos puedan ser aplicados a todos, y para poder realizar una evaluación adecuada. Se emplearán las técnicas de aprendizaje que mejor funcionamiento proporcionen tras una batería de pruebas, y siempre y cuando los recursos disponibles permitan su aplicación. Entre ellas podrían ser: árboles de decisión, clasificadores/regresores probabilísticos, GBoost o similares, redes neuronales (profundas o no), etc...

Metodología y Competencias

1. Estudio de la bibliografía y estado actual en Music Emotion Retrieval

2. Documentación y pruebas con los principales datasets disponibles públicamente en este problema

3. Selección de un subconjunto de los datasets para desarrollar nuestras pruebas

4. En base a lo anterior, desarrollo de algoritmos de aprendizaje automático. Esta etapa podría conllevar varias fases iterativas donde se realice pre-procesamiento de los datos, o construcción de atributos.

5. Estudiar la posibilidad de integrar otros atributos calculados o inferidos

6. Experimentación donde se prueben los modelos aprendidos sobre los datasets escogidos.

8. Comparativa de resultados según diferentes perspectivas (algoritmo, parametrización, dataset, etc..)

9. Análisis general de los resultados, incluida (si es posible) una comparación con el rendimiento de los algoritmos más clásicos o conocidos.

10. Redactar la memoria.

Competencias:

Este TFG permite completar las competencias específicas [CM3], [CM4] ,[CM5] y [CM7] de la Intensificación de Computación, es decir, se trabajarán principalmente (en distinto grado) las siguientes competencias específicas de la tecnología de computación:

[CM3] Capacidad para evaluar la complejidad computacional de un problema, conocer estrategias algorítmicas que puedan conducir a su resolución y recomendar, desarrollar e implementar aquella que garantice el mejor rendimiento de acuerdo con los requisitos establecidos.

[CM4] Capacidad para conocer los fundamentos, paradigmas y técnicas propias de los sistemas inteligentes y analizar, diseñar y construir sistemas, servicios y aplicaciones informáticas que utilicen dichas técnicas en cualquier ámbito de aplicación.

[CM5] Capacidad para adquirir, obtener, formalizar y representar el conocimiento humano en una forma computable para la resolución de problemas mediante un sistema informático en cualquier ámbito de aplicación, particularmente los relacionados con aspectos de computación, percepción y actuación en ambientes entornos inteligentes.

[CM7] Capacidad para conocer y desarrollar técnicas de aprendizaje computacional y diseñar e implementar aplicaciones y sistemas que las utilicen, incluyendo las dedicadas a extracción automática de información y conocimiento a partir de grandes volúmenes de datos.

Medios a utilizar

PC de características estándar y con conexión a Internet.

Recursos online, como manuales, tutoriales y los datasets disponibles.

Bibliografía

Apuntes de las asignaturas Minería de Datos y Sistemas Inteligentes

Manuales del lenguaje Python: https://docs.python.org/3/tutorial/

Manual de la librería Pandas: https://pandas.pydata.org/

Manual de la librería Seaborn: https://seaborn.pydata.org/

Manual de la librería Numpy: https://numpy.org/doc/stable/user/tutorials_index.html

Manual de librería Librosa: https://librosa.org/doc/latest/index.html

Cursos específicos (modalidad gratuita) de sistemas de recomendación como los ofrecidos por Coursera y Google developers:

https://developers.google.com/machine-learning/recommendation

https://www.coursera.org/learn/recommender-systems-introduction?specialization=recommender-systems

Plataforma sobre información acústica y musical pública que corresponde a diversos grupos de

investigación de la Universidad Pompeu Fabra: http://acousticbrainz.org/

Y. E. Kim, E. M. Schmidt, R. Migneco, B. G. Morton, P. Richardson, J. Scott, J. A. Speck, and D. Turnbull, “Music emotion recognition: A state of the art review,” in Proc. ismir, vol. 86, 2010, pp. 937–952

M. Caetano and F. Wiering, “The role of time in music emotion recognition,” in Proc. International Symposium on Computer Music Modeling and Retrieval. Citeseer, 2012, pp. 287–294.

Tutores

FLORES GALLEGO, MARIA JULIA
OSSA JIMENEZ, LUIS DE LA

Alumno

GARCÍA DÍAZ, JULIO

Curso: 2021-22
© Escuela Superior de Ingeniería Informática
Edificio Infante Don Juan Manuel
Avda. de España s/n
02071 Albacete
Tfno: 967 59 92 00 - Fax: 967 59 92 24
informatica.ab@uclm.es
aviso legal

generar código QR de la página