cambiar a curso:   2015-16   2017-18


Grado en Ingeniería Informática


TRABAJOS FIN DE GRADO
curso: 2016-17

Instalación y optimización de Spark sobre un clúster de altas prestaciones


Tecnologías Específicas

Ingeniería de Computadores
 


Descripcion y Objetivos

Durante los últimos años, ha surgido un gran interés tanto desde el mundo académico como desde la industria por el procesamiento masivo de datos. Apache Spark está ganando cada vez más prominencia como herramienta para el procesamiento eficiente de grandes volúmenes de datos, gracias a su habilidad para aprovechar las jerarquías de memoria de los nodos de cálculo de los clústers donde se ejecuta de manera eficiente. No obstante, la red de interconexión sigue desempeñando un papel importante en la eficiencia de Spark, debido principalmente a las fases de "barajado" de datos que implica su flujo de trabajo.

El objetivo principal de este TFG es instalar Spark sobre un clúster de cálculo dotado de una red de tecnología InfiniBand de altas prestaciones. Para validar dicha instalación y ajustar los parámetros de configuración de Spark, se emplearán una serie de benchmarks. Además, se explorará la posibilidad de emplear los protocolos de comunicación propios de dicha tecnología, y no los protocolos TCP/IP.

El Instituto de Investigación Informática Albacete (I3A) dispone para este proyecto del cluster CELLIA (Cluster for the Evaluation of Low-Latency Interconnection Architectures), compuesto por 38 nodos de cómputo interconectados mediante tarjetas de red, conmutadores y cables InfiniBand.

 


Metodología y Competencias

El presente TFG se llevará a cabo mediante la implementación de Spark en un sistema real y su posterior evaluación. Para ello, se han identificado las siguientes tareas:

  1. Estudio del entorno Apache Spark
  2. Estudio de la tecnología InfiniBand
  3. Prueba de concepto de Spark sobre un número pequeño de nodos en el clúster CELLIA
  4. Estudio de la escalabilidad de Spark sobre CELLIA
  5. Estudio del impacto de la red de interconexión sobre las prestaciones de Spark
 


Medios a utilizar

  • Cluster CELLIA, del grupo RAAP en el I3A
  • Software Spark, de código abierto
  • Drivers de Hadoop para Infiniband, de código abierto
  • Benchmarks para Spark, de código abierto

 

 

 


Bibliografía

  • Página web Apache Spark, en http://spark.apache.org/
  • Página web High-Performance Big Data (HiBD), en http://hibd.cse.ohio-state.edu/
  • Bechmarcks para Spark, en https://github.com/databricks/spark-perf

Esta bibliografía básica se irá ampliando durante la ejecución del proyecto.

 


Tutores


ESCUDERO SAHUQUILLO, JESUS
CAMINERO HERRÁEZ, Mª BLANCA
 

Alumno