TRABAJOS FIN DE GRADO curso: 2017-18
Modelado y análisis de prestaciones de un cluster real con tecnología InfiniBand y topología hipercubo |
Tecnologías Específicas
Ingeniería de Computadores
Descripcion y Objetivos
La especificación InfiniBand está muy presente en los actuales sistemas de computación de altas prestaciones (aproximadamente en un 51% de los sistemas de la lista TOP500) como tecnología de red de interconexión. El rendimiento de dicha red de interconexión es crucial, ya que puede ser el cuello de botella del sistema completo si no es capaz de responder con unas altas prestaciones y una baja latencia cuando se ejecutan aplicaciones de cómputo intensivo el sistema. Entre las consideraciones de diseño de la red de interconexión destacan la topología o el algoritmo de encaminamiento. En este sentido, los hipercubos son un tipo de topología de red muy común, de tipo directo, y están presentes en varios supercomputadores de los más potentes del mundo. En este TFG se plantea el modelado en un simulador basado en OMNET++ de un cluster InfiniBand real con topología hipercubo y un algoritmo de encaminamiento tipo DOR. Además, se analizarán las prestaciones de la red de interconexión con aplicaciones reales, y se identificaran los potenciales cuellos de botella del sistema con determinados patrones de comunicación de mensajes, con el fin de estudiar uno de los retos en la investigación en redes de interconexión de tipo hipercubo: la dinámica de los árboles de congestión de tráfico de datos. Finalmente, el modelo de simulación será validado ejecutando pruebas sencillas en el cluster CELLIA, un supercomputador disponible en el grupo RAAP.
Metodología y Competencias
Para conseguir los objetivos del TFG, las actividades principales a realizar por el alumno son las siguientes (se indica el tiempo estimado de realización en meses, asumiendo una dedicación de 38 horas/mes y unas 300 horas de dedicación total al TFG):
- Conocer la especificación InfiniBand y las características de los componentes de red Mellanox, así como conocer las topologías hipercubo y el algoritmo de encaminamiento DOR. (1 mes).
- Comprender el simulador OMNET++ disponible en el grupo RAAP, e identificar los módulos que deben ser modificados para modelar hipercubos (1 mes).
- Modelar la topología de red hipercubo y el algoritmo de encaminamiento DOR (2 meses)
- Realizar tests de verificación de la implementación (1 mes)
- Definición de escenarios de prueba y de los experimentos, que serán realizados con tráfico sintético y tráfico real. Se simularán clusters reales como el supercomputador del ICE-X del NTNU (http://www.top500.org/system/177817) que está situado en la posición 168 del índice Top500. Ejecutar dichos experimentos y evaluar las prestaciones de la red InfiniBand. Validar los resultados obtenidos utilizando el cluster CELLIA disponible en el grupo RAAP (2 meses).
- Documentar los resultados, incluyendo la memoria del TFG (1 mes)
Medios a utilizar
Los medios a utilizar para el desarrollo del TFG son los siguientes:
- Simulador de redes de interconexión OMNet++ disponible en el grupo RAAP.
- Cluster CELLIA del RAAP: este cluster está construido con componentes InfiniBand, concretamente tarjetas de red Mellanox ConnectX3 MCX353A-QCBT QSFP con conexión QDR, conmutadores Mellanox IS5022 y cableado InfiniBand estándar. El cluster está disponible para ser empleado durante la duración del TFG.
- Howto para lanzar aplicaciones paralelas sencillas en el cluster CELLIA de cara a la validación de los resultados de simulación.
- Ordenador tipo PC.
Bibliografía
La bibliografía básica para el desarrollo del TFG es la siguiente:
- Especificación InfiniBand.
- Diversos libros y artículos sobre redes de interconexión, especialmente sobre la topología hipercubo y encaminamiento DOR.
- Documentación de desarrollo del simulador OMNet++.
Toda la bibliografía está disponible.
Tutores GARCÍA GARCÍA, PEDRO JAVIER ESCUDERO SAHUQUILLO, JESUS | Alumno MARTÍNEZ VALVERDE, JUAN
|
|