Universidad de Castilla-La Mancha
 
Escuela Superior de Ingeniería Informática

 

  cambiar a curso:   2020-21   2022-23



Grado en Ingeniería Informática


TRABAJOS FIN DE GRADO
curso: 2021-22

Técnicas de aprendizaje automático para la clasificación de emociones en música


Tecnologías Específicas

Computación
 


Descripcion y Objetivos

La disciplina conocida como "Music Information Retrieval (MIR)" en inglés, que podría denominarse Recuperación de Información Musical en español, es uno de los campos de aplicación de la Inteligencia Artificial que más en auge están actualmente. Existen muchos subcampos de gran interés como pueden ser el de detección de género, los sistemas de recomendación, la generación de playlists o aquellos modelos que tratan con las emociones asociadas. Incluso, hay trabajos que van un paso más allá e intentan crear música, por ejemplo, a partir del estilo musical de un compositor.

Cuando se trabaja con música (o audio en general) la entrada está asociada a procesamiento de la señal, pero actualmente los datos de entrada suelen estar enriquecidos con etiquetas que pueden proporcionar mucha información (autor, cantante, género, año, tema, etc…). Incluso, si es una canción, se puede adjuntar el texto con sus letras. Hay por tanto mucha información disponible, que a veces se puede encontrar en datasets ya publicados. Dos de los más conocidos y con más datos son: Million Song Dataset - MSD (enlace: http://millionsongdataset.com/) y MuMu (https://www.upf.edu/web/mtg/mumu). En el ámbito de las emociones podemos encontrar diferentes datasets que son de menor dimensionalidad. Por ejemplo: 

  • Soundtracks: https://www.jyu.fi/hytk/fi/laitokset/mutku/en/research/projects2/past-projects/coe/materials/emotion/soundtracks/Index
  • Emotifydata: http://www2.projects.science.uu.nl/memotion/emotifydata/
  • DEAM dataset (The MediaEval Database for Emotional Analysis of Music): https://cvml.unige.ch/databases/DEAM/
  • MOODetector, que ofrece diferentes conjuntos: http://mir.dei.uc.pt/downloads.html

En este caso, nos vamos a centrar en el subcampo de reconocimiento de emociones en música (MER, del inglés Music emotion recognition).  Esta disciplina empezó a cobrar relevancia hace una década y se ha convertido en un área importante, ya que en la sociedad actual las redes sociales y las plataformas musicales han alcanzado gran popularidad de uso.  Por tanto, la capacidad de poder abordar el aspecto emocional de la música resulta de gran interés desde diversos puntos de vista. Originalmente, el objetivo del MER es el de diseñar/aprender sistemas que puedan estimar las reacciones emocionales de la persona que escucha una canción. Este concepto puede extenderse, ya que no siempre coinciden la emoción que el autor/compositor de la música trata de transmitir (intended emotion) con la que percibe una persona (emotion perception) en particular, e incluso se puede distinguir entra la emoción que se percibe y la que realmente se siente (emotion induction).

 

Por otro lado, cuando se aplica aprendizaje automático al reconocimiento de emociones en música, existen varios enfoques \cite{yang2012machine}, siendo los dos principales: (1) considerar la emoción como una etiqueta dentro de un conjunto de etiquetas predefinidas (por ejemplo: \{alegre, triste, enfadado, temeroso, tierno\}) en cuyo caso se abordaría como un problema de clasificación; (2) el enfoque dimensional, donde las emociones se definen sobre un número de dimensiones o ejes, como en el trabajo de Russell. En este caso como se trata de determinar dos valores numéricos, que al final es un vector 2D, si el problema se aborda directamente así, se resolvería con técnicas de regresión. Los modelos tratarán de predecir los valores de emoción que representan el contenido afectivo de una canción, de tal forma que cada pieza musical sería un punto en el espacio de emociones. En este trabajo vamos a trabajar con una combinación de ambos enfoques, como veremos posteriormente. 

En el desarrollo de este trabajo fin de carrera el estudiante va a emplear algoritmos de aprendizaje supervisado (ya sea regresión o clasificación, según la etiqueta), para predicir la emoción en un segmento musical, que puede ser una canción o una parte de ella. Habrá que estudiar y analizar previamente la bibliografía mencionada, y hacer un estudio exhaustivo de los datasets existentes, y de las características (atributos) que éstos ofrecen. Se podrá seleccionar uno o varios de esos subconjuntos, en vista de que los algoritmos puedan ser aplicados a todos, y para poder realizar una evaluación adecuada. Se emplearán las técnicas de aprendizaje que mejor funcionamiento proporcionen tras una batería de pruebas, y siempre y cuando los recursos disponibles permitan su aplicación. Entre ellas podrían ser: árboles de decisión, clasificadores/regresores probabilísticos, GBoost o similares, redes neuronales (profundas o no), etc...

 

 


Metodología y Competencias

1. Estudio de la bibliografía y estado actual en Music Emotion Retrieval

2. Documentación y pruebas con los principales datasets disponibles públicamente en este problema

3. Selección de un subconjunto de los datasets para desarrollar nuestras pruebas

4. En base a lo anterior, desarrollo de algoritmos de aprendizaje automático. Esta etapa podría conllevar varias fases iterativas donde se realice pre-procesamiento de los datos, o construcción de atributos.

5. Estudiar la posibilidad de integrar otros atributos calculados o inferidos 

6. Experimentación donde se prueben los modelos aprendidos sobre los datasets escogidos.

8. Comparativa de resultados según diferentes perspectivas (algoritmo, parametrización, dataset, etc..)

9. Análisis general de los resultados, incluida (si es posible) una comparación con el rendimiento de los algoritmos más clásicos o conocidos.

10. Redactar la memoria.

Competencias:

Este TFG permite completar las competencias específicas [CM3], [CM4] ,[CM5] y [CM7] de la Intensificación de Computación, es decir, se trabajarán principalmente (en distinto grado) las siguientes competencias específicas de la tecnología de computación:

  • [CM3] Capacidad para evaluar la complejidad computacional de un problema, conocer estrategias algorítmicas que puedan conducir a su resolución y recomendar, desarrollar e implementar aquella que garantice el mejor rendimiento de acuerdo con los requisitos establecidos.
  • [CM4] Capacidad para conocer los fundamentos, paradigmas y técnicas propias de los sistemas inteligentes y analizar, diseñar y construir sistemas, servicios y aplicaciones informáticas que utilicen dichas técnicas en cualquier ámbito de aplicación.
  • [CM5] Capacidad para adquirir, obtener, formalizar y representar el conocimiento humano en una forma computable para la resolución de problemas mediante un sistema informático en cualquier ámbito de aplicación, particularmente los relacionados con aspectos de computación, percepción y actuación en ambientes entornos inteligentes.
  • [CM7] Capacidad para conocer y desarrollar técnicas de aprendizaje computacional y diseñar e implementar aplicaciones y sistemas que las utilicen, incluyendo las dedicadas a extracción automática de información y conocimiento a partir de grandes volúmenes de datos.
 


Medios a utilizar

PC de características estándar y con conexión a Internet.

Recursos online, como manuales, tutoriales y los datasets disponibles.

 


Bibliografía

  • Apuntes de las asignaturas Minería de Datos y Sistemas Inteligentes
  • Manuales del lenguaje Python: https://docs.python.org/3/tutorial/
  • Manual de la librería Pandas: https://pandas.pydata.org/
  • Manual de la librería Seaborn: https://seaborn.pydata.org/
  • Manual de la librería Numpy: https://numpy.org/doc/stable/user/tutorials_index.html
  • Manual de librería Librosa: https://librosa.org/doc/latest/index.html
  • Cursos específicos (modalidad gratuita) de sistemas de recomendación como los ofrecidos por Coursera y Google developers:
    •  https://developers.google.com/machine-learning/recommendation
    • https://www.coursera.org/learn/recommender-systems-introduction?specialization=recommender-systems      
  •  Plataforma sobre información acústica y musical pública que corresponde a diversos grupos de
  • investigación de la Universidad Pompeu Fabra: http://acousticbrainz.org/
  • Y. E. Kim, E. M. Schmidt, R. Migneco, B. G. Morton, P. Richardson, J. Scott, J. A. Speck, and D. Turnbull, “Music emotion recognition: A state of the art review,” in Proc. ismir, vol. 86, 2010, pp. 937–952
  • M. Caetano and F. Wiering, “The role of time in music emotion recognition,” in Proc. International Symposium on Computer Music Modeling and Retrieval. Citeseer, 2012, pp. 287–294.
 


Tutores


FLORES GALLEGO, MARIA JULIA
OSSA JIMENEZ, LUIS DE LA
 

Alumno


GARCÍA DÍAZ, JULIO

 

 

Sindicación  Sindicación  Sindicación  Sindicación

Curso: 2021-22
© Escuela Superior de Ingeniería Informática
Edificio Infante Don Juan Manuel
Avda. de España s/n
02071 Albacete
Tfno: 967 59 92 00 - Fax: 967 59 92 24

informatica.ab@uclm.es
aviso legal
generar código QR de la página