EspecialidadesIng. de Computadores
Tutor
GARCÍA GARCÍA, PEDRO JAVIER QUILES FLOR, FRANCISCO JOSE
Descripción y Objetivos
La especificación InfiniBand está muy presente en los actuales sistemas de computación de altas prestaciones (aproximadamente en un 44% de los sistemas de la lista TOP500). Entre sus ventajas, destaca la posibilidad de configurar varios mecanismos para adaptarlos a las necesidades del sistema, aunque la implementación concreta de dichos mecanismos no siempre está completamente definida por el estándar InfiniBand. Uno de estos aspectos configurables es la gestión de los niveles de servicio (SLs) y los canales virtuales (VLs), que se usan en diversos mecanismos y técnicas orientados a maximizar la eficiencia de la red de interconexión, como pueden ser esquemas de colas que permiten el control de la congestión o a la provisión de calidad de servicio. Esta asignación de SLs y VLs, así como otras funcionalidades básicas de la red tales como la función de encaminamiento, se implementan en los componentes InfiniBand mediante un software de control, concretamente el entorno Open-Fabrics Enterprise Distribution (OFED). En este TFG se plantea la configuración de un cluster InfiniBand real (basado en componentes del fabricante Mellanox) de modo que el patrón de su red de interconexión sea la topología jerárquica conocida como Dragonfly. El entorno OFED deberá ser modificado de modo que la función de encaminamiento sea adecuada para la topología mencionada. Además, de cara a usar los recursos de la red de forma más eficiente, OFED deberá configurarse para asignar los SLs disponibles a distintos flujos de tráfico de forma dinámica (esto es, en tiempo de ejecución de las aplicaciones) y para que en función del SL asignado, se asigne a los flujos de tráfico un VL, de modo que en conjunto los VLs se usen con arreglo a esquemas de colas ya propuestos que reducen el impacto de la congestión y proporcionan calidad de servicio.
Metodología y Competencias
Para conseguir los objetivos del TFG, los principales pasos a seguir por el alumno serían los siguientes (se indica una estimación aproximada del tiempo requerido para cada uno de ellos):
- Conocer la especificación InfiniBand y las características de los componentes de red Mellanox (1 mes).
- Conocer la topología Dragonfly, sus algoritmos de encaminamiento y los esquemas de colas propuestos para dicha topología (1 mes).
- Comprender el entorno de programación Open-Fabrics Enterprise Distribution (OFED): instalación, compilación, estructura del código fuente, ejecución, etc. (2 meses).
- Implementar en OFED el algoritmo de encaminamiento Hybrid-DOR (1.5 meses).
- Implementar en OFED las políticas para la asignación de SLs y VLs a flujos de tráfico con arreglo a los esquemas de colas válidos para Dragonfly (1.5 meses).
- Configurar físicamente (conexionado) el cluster InfiniBand según la topología Dragonfly (1 mes).
- Ejecutar en el cluster InfiniBand aplicaciones paralelas, como pueden ser los benchmarks HPCC y Graph500 (1.5 meses).
- Evaluar las prestaciones de la red InfiniBand del cluster a partir de los resultados obtenidos con las diferentes aplicaciones paralelas ejecutadas (1.5 meses).
- Documentar los resultados, incluyendo la memoria del TFG (1 mes)
Medios a utilizar
Los medios a utilizar para el desarrollo del TFG son los siguientes:
- Cluster CELLIA del RAAP: este cluster está construido con componentes InfiniBand, concretamente tarjetas de red Mellanox ConnectX3 MCX353A-QCBT QSFP con conexión QDR, conmutadores Mellanox IS5022 y cableado InfiniBand estándar. El cluster está disponible para ser empleado durante la duración del TFG.
- Distribución de OFED: documentación, código fuente y tutoriales. La distribución está disponible.
- Benchmarks y aplicaciones paralelas para la generación de tráfico en el cluster CELLIA.
- Ordenador tipo PC.
Bibliografía
La bibliografía básica para el desarrollo del TFG es la siguiente:
- Especificación InfiniBand.
- Diversos libros y artículos sobre redes de interconexión, especialmente sobre la topología Dragonfly.
- Diversos libros y artículos sobre esquemas de colas para redes de interconexión, orientados al control de congestión y provisión de calidad de servicio.
Toda la bibliografía está disponible.
Asignación
El Trabajo Fin de Grado ha sido a asignado a Don/Doña Germán Horacio Maglione Mathey
|