Con el auge de la robótica móvil ha surgido la necesidad de identificar (clasificar) los objetos y escenas que forman el entorno de trabajo de los robots. El desarrollo de estos algoritmos de clasificación se suele hacer utilizando bases de datos creadas específicamente para este tipo de pruebas.
Sin embargo, estas bases de datos suelen ser exclusivamente de imágenes o de audio, mientras que, en el ámbito de la robótica, la adquisición de ambas fuentes de información se hace de forma simultánea. De esta forma, los datos visuales y auditivos se complementan para obtener una mejor comprensión del entorno.
En este trabajo se propone la adquisición de varias secuencias de imágenes 3D y de audio, de forma que se pueda realizar con ellas un análisis multimodal del entorno. Así, deberán desarrollarse dos tareas fundamentales: 1) captura de imágenes y audio, y 2) etiquetado. Finalmente se realizarán algunas pruebas estándar de clasificación para validar la base de datos.
Metología:
Para la realización de este trabajo se sugiere seguir la metología SCRUM, aunque se estudiará utilizar otra distinta en función del alumno que realize este trabajo, sus preferencias, así como la intensificación que esté cursando.
Plan de trabajo:
Para la realización de este trabajo se deben llevar a cabo las siguientes tareas:
- Estudio de las bases de datos existentes tanto de imágenes como de audio.
- Captura de secuencias de imágenes 3D utilizando un dispositivo Kinect.
- Captura de varias secuencias de audio (con distintos interlocutores) basadas en las imágenes adquiridas previamente.
- Etiquetado de las imágenes 3D y del audio capturado.
- Realizar algunas pruebas de clasificación con métodos estándar para validar la utilidad de los datos capturados.