Ante la creciente importancia de afrontar los problemas conocidos como Big-Data, es decir, el procesamiento de masivas cantidades de información como resultado de grandes experimentos científicos, redes sociales, estudios sociológicos, etc. aparecen nuevas propuestas, tecnologías y sistemas de procesamiento.
El desarrollo e implementación del paradigma MapReduce (mediante aplicaciones como Hadoop) así como la computación Cloud, ha proporcionado un marco idóneo para afrontar estos estudios. Sin embargo, siguen apareciendo propuestas para mejorar aspectos tales como el almacenamiento y gestión de los datos. Las bases de datos NoSQL surgen como una propuesta para el almacenamiento de grandes cantidades de información de forma estructurada y ofreciendo interesantes mecanismos tanto para la escalabilidad como para la gestión distribuida de manera eficiente.
MongoDB es un sistema de bases de datos NoSQL, de código abierto, que está marcando tendencia actualmente. Como muestra de ello es su utilización en industrias tales como Craiglist y Foursquare.
Los objetivos principales son: alcanzar la integración de ambas tecnologías y evaluar el impacto de la utilización de MongoDB mediante Hadoop.
Los pasos a seguir son:
1.- Familiarización con la tecnología Cloud en general como infraestructura de despliegue y con el paradigma MapReduce (Hadoop).
2.- Familiarización con las bases de datos NoSQL existentes, centrando la atención sobre MongoDB.
3.- Despliegue e integración de MongoDB y Hadoop sobre el Cloud privado.
4.- Evaluación de un caso de estudio relacionado con la actual temática Big-Data (procesamiento de Tweets).
5.- Análisis del impacto de la integración con técnicas de almacenamiento tradicionales, así como con mecanismos de almacenamiento distribuidos.
El desarrollo del proyecto se realizará en un entorno Cloud privado, disponible en el I3A.