TRABAJOS FIN DE GRADO curso: 2017-18
Configuración con tecnología RoCE de la red de interconexión de un cluster de cómputo intensivo y almacenamiento |
Tecnologías Específicas
Ingeniería de Computadores
Descripcion y Objetivos
La red de interconexión es un elemento clave en los sistemas de cómputo de altas prestaciones y en los centros de proceso de datos. De las prestaciones de la red depende en gran medida el buen funcionamiento del clúster en cuanto a tiempo de respuesta, velocidad de los protocolos de transporte de datos, etc. Por tanto, se requiere que la red de interconexión ofrezca unas altas prestaciones y una baja latencia en la transmisión de datos. Entre las distintas tecnologías de red de interconexión destacan InfiniBand y Ethernet, las más usadas actualmente en sistemas de altas prestaciones. Mientras InfiniBand tiene su principal mercado en sistemas de cómputo intensivo, Ethernet predomina en el mercado del almacenamiento y Big-Data. No obstante, la latencia ofrecida por Ethernet es excesiva para determinadas aplicaciones, lo que ha motivado la aparición de nuevas tecnologías orientadas a superar este problema. Una de esas tecnologías es RoCE (RDMA over Converged Ethernet) que permite un transporte eficiente y de baja latencia, mediante una capa arquitectónica ligera sobre Ethernet. Esta capa posibilita una ejecución rápida de las aplicaciones y una mejor utilización y escalabilidad de los sistemas de tipo clúster. La configuración de RoCE no es trivial, y requiere de un estudio previo y de un ajuste de sus parámetros. En el presente trabajo se propone que el alumno explore la tecnología RoCE, con el objetivo de realizar una configuración de la misma en la red de interconexión de un clúster real, concretamente el clúster CELLIA (Cluster for the Evaluation of Low-Latency Architectures) del grupo RAAP de la UCLM, cuya red de interconexión dispone de hardware compatible con RoCE. En dicho clúster se realizarán mediciones de los tiempos de ejecución de diferentes aplicaciones de cómputo y almacenamiento, de cara a valorar las prestaciones de la tecnología RoCE en comparación con Ethernet e InfiniBand.
Metodología y Competencias
Se requiere que el alumno dedique 300 horas de dedicación al TFG, según la normativa del plan de estudios. Según esto, se estima una dedicación parcial de 38 horas/mes. Las principales tareas a realizar por el alumno son las siguientes:
- Estudiar el estado del arte de tecnologías redes de altas prestaciones, sobre todo las bases de las tecnologías RoCE, Ethernet e InfiniBand (1,5 meses).
- Conocer a fondo la estructura y funcionamiento del clúster CELLIA, e instalación del software de control de RoCE (2 meses).
- Implementar la configuración básica de RoCE en el clúster CELLIA (2 meses).
- Realizar pruebas en CELLIA con aplicaciones reales y ajustar parámetros de RoCE para optimizar el funcionamiento del clúster (1,5 meses).
- Documentar los resultados, incluyendo la memoria del TFG (1 mes).
Competencias adquiridas:
- Capacidad de analizar y evaluar arquitecturas de computadores, incluyendo plataformas paralelas y distribuidas, así como desarrollar y optimizar software para las mismas.
- Capacidad de diseñar e implementar software de sistema y de comunicaciones.
- Capacidad para analizar, evaluar, seleccionar y configurar plataformas hardware para el desarrollo y ejecución de aplicaciones y servicios informáticos.
- Capacidad para diseñar, desplegar, administrar y gestionar redes de computadores.
Medios a utilizar
Los medios a utilizar para el desarrollo del TFG son los siguientes:
- Cluster CELLIA del RAAP: este cluster está formado por 38 nodos de cómputo, procesadores Intel Xeon E5, 32 GB de RAM y una red de interconexión InfiniBand, con tarjetas de red Mellanox ConnectX3 MCX354A-QCBT QSFP y velocidad QDR de 40 Gbps, conmutadores Mellanox IS5022 y cableado InfiniBand de cobre marca Mellanox. El cluster está disponible para ser empleado durante la duración del TFG.
- Distribución de OFS: documentación, código fuente y tutoriales. La distribución está disponible.
- Benchmarks y aplicaciones paralelas para la generación de tráfico en el cluster CELLIA.
- Ordenador tipo PC.
Bibliografía
La bibliografía básica para el desarrollo del TFG es la siguiente:
- Especificación InfiniBand.
- Diversos libros y artículos sobre redes de interconexión, especialmente sobre la tecnología RoCE.
- Guías para mejorar la configuración de RoCE.
Toda la bibliografía está disponible.
Tutores GARCÍA GARCÍA, PEDRO JAVIER ESCUDERO SAHUQUILLO, JESUS | Alumno
|
|