|
Grado en Ingeniería Informática |
TRABAJOS FIN DE GRADO curso: 2016-17
Adquisición de un corpus multimodal de imágenes 3D y audio para su utilización en tareas de reconocimiento y localización |
Tecnologías Específicas
Computación Ingeniería del Software Tecnologías de la Información
Descripcion y Objetivos
Con el auge de la robótica móvil ha surgido la necesidad de identificar (clasificar) los objetos y escenas que forman el entorno de trabajo de los robots. El desarrollo de estos algoritmos de clasificación se suele hacer utilizando bases de datos creadas específicamente para este tipo de pruebas.
Sin embargo, estas bases de datos suelen ser exclusivamente de imágenes o de audio, mientras que, en el ámbito de la robótica, la adquisición de ambas fuentes de información se hace de forma simultánea. De esta forma, los datos visuales y auditivos se complementan para obtener una mejor comprensión del entorno.
En este trabajo se propone la adquisición de varias secuencias de imágenes 3D y de audio, de forma que se pueda realizar con ellas un análisis multimodal del entorno. Así, deberán desarrollarse dos tareas fundamentales: 1) captura de imágenes y audio, y 2) etiquetado. Finalmente se realizarán algunas pruebas estándar de clasificación para validar la base de datos.
Metodología y Competencias
Metología:
Para la realización de este trabajo se sugiere seguir la metología SCRUM, aunque se estudiará utilizar otra distinta en función del alumno que realize este trabajo, sus preferencias, así como la intensificación que esté cursando.
Plan de trabajo:
Para la realización de este trabajo se deben llevar a cabo las siguientes tareas:
- Estudio de las bases de datos existentes tanto de imágenes como de audio.
- Captura de secuencias de imágenes 3D utilizando un dispositivo Kinect.
- Captura de varias secuencias de audio (con distintos interlocutores) basadas en las imágenes adquiridas previamente.
- Etiquetado de las imágenes 3D y del audio capturado.
- Realizar algunas pruebas de clasificación con métodos estándar para validar la utilidad de los datos capturados.
Medios a utilizar
- Dispositivos Microsoft Kinect para la captura de imágenes 3D y audio.
- Herramientas de etiquetado de imágenes.
- Herramientas de transcripción/etiquetado de audio.
Bibliografía
- Yulan Guo; Jun Zhang; Min Lu; Jianwei Wan; Yanxin Ma, "Benchmark datasets for 3D computer vision," in IEEE 9th Conference on Industrial Electronics and Applications (ICIEA), 2014, pp.1846-1851, 9-11 June 2014
- Lee, K. F. (1989). Automatic Speech Recognition: The Development of the Sphinx Recognition System (Vol. 62). Springer Science & Business Media.
- Object Labeling Toolkit (OLT) http://mapir.isa.uma.es/mapirwebsite/index.php/mapir-downloads/200-OLT
Tutores GARCÍA VAREA, ISMAEL ROMERO GONZALEZ, CRISTINA | Alumno
|
| |