Escuela Superior de Ingeniería Informática

cambiar a curso: 2015-16 2017-18

Grado en Ingeniería Informática

TRABAJOS FIN DE GRADO
curso: 2016-17

Instalación y optimización de Spark sobre un clúster de altas prestaciones

Tecnologías Específicas

Ingeniería de Computadores

Descripcion y Objetivos

Durante los últimos años, ha surgido un gran interés tanto desde el mundo académico como desde la industria por el procesamiento masivo de datos. Apache Spark está ganando cada vez más prominencia como herramienta para el procesamiento eficiente de grandes volúmenes de datos, gracias a su habilidad para aprovechar las jerarquías de memoria de los nodos de cálculo de los clústers donde se ejecuta de manera eficiente. No obstante, la red de interconexión sigue desempeñando un papel importante en la eficiencia de Spark, debido principalmente a las fases de "barajado" de datos que implica su flujo de trabajo.

El objetivo principal de este TFG es instalar Spark sobre un clúster de cálculo dotado de una red de tecnología InfiniBand de altas prestaciones. Para validar dicha instalación y ajustar los parámetros de configuración de Spark, se emplearán una serie de benchmarks. Además, se explorará la posibilidad de emplear los protocolos de comunicación propios de dicha tecnología, y no los protocolos TCP/IP.

El Instituto de Investigación Informática Albacete (I3A) dispone para este proyecto del cluster CELLIA (Cluster for the Evaluation of Low-Latency Interconnection Architectures), compuesto por 38 nodos de cómputo interconectados mediante tarjetas de red, conmutadores y cables InfiniBand.

Metodología y Competencias

El presente TFG se llevará a cabo mediante la implementación de Spark en un sistema real y su posterior evaluación. Para ello, se han identificado las siguientes tareas:

Estudio del entorno Apache Spark

Estudio de la tecnología InfiniBand

Prueba de concepto de Spark sobre un número pequeño de nodos en el clúster CELLIA

Estudio de la escalabilidad de Spark sobre CELLIA

Estudio del impacto de la red de interconexión sobre las prestaciones de Spark

Medios a utilizar

Cluster CELLIA, del grupo RAAP en el I3A

Software Spark, de código abierto

Drivers de Hadoop para Infiniband, de código abierto

Benchmarks para Spark, de código abierto

Bibliografía

Página web Apache Spark, en http://spark.apache.org/

Página web High-Performance Big Data (HiBD), en http://hibd.cse.ohio-state.edu/

Bechmarcks para Spark, en https://github.com/databricks/spark-perf

Esta bibliografía básica se irá ampliando durante la ejecución del proyecto.

Tutores

ESCUDERO SAHUQUILLO, JESUS
CAMINERO HERRÁEZ, Mª BLANCA

Tutores

Alumno