cambiar a curso:   2019-20   2021-22


Grado en Ingeniería Informática


TRABAJOS FIN DE GRADO
curso: 2020-21

Configuración y Evaluación de un subsistema de memoria distribuida en un supercomputador


Tecnologías Específicas

Ingeniería de Computadores
 


Descripcion y Objetivos

En los últimos años, la computación heterogénea está influyendo de forma considerable la arquitectura de los nodos de procesamiento, ya que las aplicaciones demandan el uso, dentro de un mismo nodo de procesamiento, de un mayor número de unidades de cómputo de propósito específico (GPUs, aceleradores, etc.) y unidades de almacenamiento más rápidas (NVMe). Determinadas aplicaciones demandan que estas unidades funcionales se comuniquen entre sí a velocidades elevadas, para llevar a cabo tareas de cómputo y almacenamiento. También, será necesario que estas unidades funcionales se comuniquen con otras unidades funcionales situadas en otros nodos, por medio de la interfaz de red de cada nodo. Por ello, se hace necesario analizar de una forma precisa la comunicación intra-nodo (es decir, entre las unidades funcionales de dentro de un mismo nodo), y su impacto en la comunicación inter-nodo (es decir, entre las unidades de un nodo y las de otro), con el objetivo de detectar en la red intra-nodo cuellos de botella que podrían degradar las prestaciones ofrecidas para satisfacer las necesidades de comunicación de las aplicaciones en el sistema completo. 

En este TFG se construirá un pequeño banco de pruebas formado por varios nodos de procesamiento y almacenamiento, cada uno de ellos dotado de GPU, disco duro de almacenamiento de memoria no volátil NVMe, interfaz de red InfiniBand EDR de 100Gbps y red intra-nodo PCIe 3.0. Los nodos se interconectarán entre sí por medio de un switch InfiniBand EDR. Se ejecutarán aplicaciones reales que utilicen estas unidades funcionales, como aplicaciones de almacenamiento distribuido. También se realizará un análisis de los patrones de tráfico generados por estas aplicaciones en la red intra-nodo. Con los resultados del análisis anterior, se modelará una red intra-nodo genérica en el simulador de red de interconexión disponible en este proyecto. Únicamente será necesario extender el modelo del nodo, para incluir la red intra-nodo. Además, se modelarán de forma sintética los patrones de tráfico generados por la aplicación anterior. Se realizarán pruebas de concepto del modelo que se validarán contra el banco de pruebas real construido.

 


Metodología y Competencias

Para alcanzar los objetivos del TFG, las actividades principales a realizar son las siguientes (se indica el tiempo estimado de realización en meses, asumiendo una dedicación de 8 meses, 37,5 horas/mes y 300 horas de dedicación total al TFG):

  1. Conocer con un nivel de detalle adecuado a la carga del TFG el estado del arte de las redes intra-nodo y de las herramientas de simulación, mediante el estudio de la bibliografía, la documentación y los simuladores disponibles en el grupo RAAP (1,5 meses).
  2. Construcción y configuración del banco de pruebas de la red intra-nodo en el cluster CELLIA, disponible en el grupo RAAP (2 meses).
  3. Modelar la funcionalidad de la red intra-nodo analizada en la tarea anterior en un simulador de redes (2 meses).
  4. Estudio comparativo y evaluación del modelo de simulación (1,5 meses).
  5. Documentación de los resultados y redacción de la memoria de TFG (1 mes).

Competencias adquiridas:

 

  • Capacidad de analizar y evaluar arquitecturas de computadores, incluyendo plataformas paralelas y distribuidas, así como desarrollar y optimizar software para las mismas.
  • Capacidad de diseñar e implementar software de sistema y de comunicaciones. - Capacidad para analizar, evaluar, seleccionar y configurar plataformas hardware para el desarrollo y ejecución de aplicaciones y servicios informáticos.
  • Capacidad para diseñar, desplegar, administrar y gestionar redes de computadores.
 


Medios a utilizar

Los medios a utilizar para el desarrollo del TFG son los siguientes:

  • Elementos del cluster CELLIA, disponibles en el grupo RAAP
  • Simulador de red de interconexión disponible en el grupo RAAP.
  • Servidor de GIT y GitLab disponible en el grupo RAAP.
  • Ordenador tipo PC.
 


Bibliografía

La bibliografía básica para el desarrollo del TFG es la siguiente:

  • Diversos libros y artículos sobre redes de interconexión, configuración de clústeres, modelado y simulación.
  • Documentación del simulador y librerías asociadas.
  • HOWTO's para lanzar simulaciones de gran tamaño en los clústeres de cómputo GALGO y CELLIA, disponibles en el I3A.

Toda la bibliografía está disponible.

 


Tutores


ESCUDERO SAHUQUILLO, JESUS
GARCÍA GARCÍA, PEDRO JAVIER
 

Alumno


MARTÍNEZ RODRÍGUEZ, RAQUEL