Escuela Superior de Ingeniería Informática

cambiar a curso: 2015-16 2017-18

Grado en Ingeniería Informática

TRABAJOS FIN DE GRADO
curso: 2016-17

Adquisición de un corpus multimodal de imágenes 3D y audio para su utilización en tareas de reconocimiento y localización

Tecnologías Específicas

Computación
Ingeniería del Software
Tecnologías de la Información

Descripcion y Objetivos

Con el auge de la robótica móvil ha surgido la necesidad de identificar (clasificar) los objetos y escenas que forman el entorno de trabajo de los robots. El desarrollo de estos algoritmos de clasificación se suele hacer utilizando bases de datos creadas específicamente para este tipo de pruebas.

Sin embargo, estas bases de datos suelen ser exclusivamente de imágenes o de audio, mientras que, en el ámbito de la robótica, la adquisición de ambas fuentes de información se hace de forma simultánea. De esta forma, los datos visuales y auditivos se complementan para obtener una mejor comprensión del entorno.

En este trabajo se propone la adquisición de varias secuencias de imágenes 3D y de audio, de forma que se pueda realizar con ellas un análisis multimodal del entorno. Así, deberán desarrollarse dos tareas fundamentales: 1) captura de imágenes y audio, y 2) etiquetado. Finalmente se realizarán algunas pruebas estándar de clasificación para validar la base de datos.

Metodología y Competencias

Metología:

Para la realización de este trabajo se sugiere seguir la metología SCRUM, aunque se estudiará utilizar otra distinta en función del alumno que realize este trabajo, sus preferencias, así como la intensificación que esté cursando.

Plan de trabajo:

Para la realización de este trabajo se deben llevar a cabo las siguientes tareas:

Estudio de las bases de datos existentes tanto de imágenes como de audio.

Captura de secuencias de imágenes 3D utilizando un dispositivo Kinect.

Captura de varias secuencias de audio (con distintos interlocutores) basadas en las imágenes adquiridas previamente.

Etiquetado de las imágenes 3D y del audio capturado.

Realizar algunas pruebas de clasificación con métodos estándar para validar la utilidad de los datos capturados.

Medios a utilizar

Dispositivos Microsoft Kinect para la captura de imágenes 3D y audio.

Herramientas de etiquetado de imágenes.

Herramientas de transcripción/etiquetado de audio.

Bibliografía

Yulan Guo; Jun Zhang; Min Lu; Jianwei Wan; Yanxin Ma, "Benchmark datasets for 3D computer vision," in IEEE 9th Conference on Industrial Electronics and Applications (ICIEA), 2014, pp.1846-1851, 9-11 June 2014

Lee, K. F. (1989). Automatic Speech Recognition: The Development of the Sphinx Recognition System (Vol. 62). Springer Science & Business Media.

Object Labeling Toolkit (OLT) http://mapir.isa.uma.es/mapirwebsite/index.php/mapir-downloads/200-OLT

Tutores

GARCÍA VAREA, ISMAEL
ROMERO GONZALEZ, CRISTINA

Tutores

Alumno