cambiar a curso:   2014-15   2016-17


Trabajo Fin de Grado 2015-16
 Implementación de servicios diferenciados con control de congestión en un cluster InfiniBand con topología Fat-tree


Especialidades
Ing. de Computadores


Tutor
GARCÍA GARCÍA, PEDRO JAVIER
ESCUDERO SAHUQUILLO, JESUS


Descripción y Objetivos

 La especificación InfiniBand está muy presente en los actuales sistemas de computación de altas prestaciones (aproximadamente en un 44% de los sistemas de la lista TOP500). Entre sus ventajas, destaca la posibilidad de configurar varios mecanismos para adaptarlos a las necesidades del sistema, aunque la implementación concreta de dichos mecanismos no siempre está completamente definida por el estándar InfiniBand. Uno de estos aspectos configurables es la gestión de los niveles de servicio (SLs) y los canales virtuales (VLs), que se usan en diversos mecanismos y técnicas orientados a maximizar la eficiencia de la red de interconexión, como pueden ser esquemas de colas que permitan ofrecer servicios diferenciados a distintos flujos de tráfico, o esquemas de colas que alivien la congestión. Esta asignación de SLs y VLs, así como otras funcionalidades básicas de la red tales como la función de encaminamiento, se implementan en los componentes InfiniBand mediante un software de control, concretamente el entorno Open-Fabrics Software (OFS). En este TFG se plantea la configuración de un cluster InfiniBand real (basado en componentes del fabricante Mellanox) de modo que el patrón de su red de interconexión sea la Fat-Tree (FT). Además, de cara a que el cluster cuente ofrezca servicios diferenciados a la vez que control de congestión, se implementarán esquemas de colas ya propuestos que proporcionan ambas funcionalidades. Para ello, OFS deberá configurarse para asignar los SLs disponibles a distintos flujos de tráfico de forma dinámica (esto es, en tiempo de ejecución de las aplicaciones) y para que en función del SL asignado, se asignen a los flujos de tráfico los VLs, cuyo arbitraje será configurado a su vez mediante las tablas de arbitraje de VLs, de modo que en conjunto los VLs se usen con arreglo a las técnicas mencionadas.



Metodología y Competencias

Para conseguir los objetivos del TFG, los principales pasos a seguir por el alumno serían los siguientes (se indica una estimación aproximada del tiempo requerido para cada uno de ellos):

        - Conocer la especificación InfiniBand y las características de los componentes de red Mellanox (1 mes).

        - Conocer la topología Fat-Tree (FT), sus algoritmos de encaminamiento y las técnicas control de congestión y servicios diferenciados propuestas para dicha topología (1 mes).

        - Comprender el entorno de programación Open-Fabrics Software (OFS):  instalación, compilación, estructura del código fuente, ejecución, etc. (2 meses).

        - Implementar en OFS las políticas para la asignación de SLs y VLs a flujos de tráfico, y la configuración de las tablas de arbitraje de VLs, con arreglo a las técnicas de control de congestión y servicios diferenciados para la topología FT (2.5 meses).

        - Configurar físicamente (conexionado) el cluster InfiniBand según la topología FT (1 mes).

        - Ejecutar en el cluster InfiniBand aplicaciones paralelas, como pueden ser los benchmarks HPCC y Graph500 (1.5 meses).

        - Evaluar las prestaciones de la red InfiniBand del cluster a partir de los resultados obtenidos con las diferentes aplicaciones paralelas ejecutadas (1.5 meses).

        - Documentar los resultados, incluyendo la memoria del TFG (1 mes).



Medios a utilizar

Los medios a utilizar para el desarrollo del TFG son los siguientes:

        - Cluster CELLIA del RAAP: este cluster está construido con componentes InfiniBand, concretamente tarjetas de red Mellanox ConnectX3 MCX353A-QCBT QSFP con conexión QDR, conmutadores Mellanox IS5022 y cableado InfiniBand estándar. El cluster está disponible para ser empleado durante la duración del TFG.

        - Distribución de OFS: documentación, código fuente y tutoriales. La distribución está disponible.

        - Benchmarks y aplicaciones paralelas para la generación de tráfico en el cluster CELLIA.

        - Ordenador tipo PC.



Bibliografía

La bibliografía básica para el desarrollo del TFG es la siguiente:

        - Especificación InfiniBand.

        - Diversos libros y artículos sobre redes de interconexión, especialmente sobre la topología FT.

        - Diversos libros y artículos sobre esquemas de colas para redes de interconexión, orientados a control de congestión y servicios diferenciados.

Toda la bibliografía está disponible.

 



Asignación
Pendiente de asignar