Las redes de interconexión son un elemento fundamental en los supercomputadores y los centros de proceso de datos (CPDs o Data-centers) en la era del Big-Data, donde los datos almacenados y procesados en todo el planeta se van a multiplicar por diez en los próximos seis años. Los CPDs actuales, formados por decenas de miles de nodos, se dedican a ofrecer servicios a aplicaciones on-line de uso intensivo de datos (OLDI services), deep learning, almacenamiento masivo y cloud computing. Estas aplicaciones manejan enormes volúmenes de datos y al mismo tiempo requieren unos tiempos de respuesta del sistema mínimos. En la arquitectura de los CPDs, la red de interconexión es un elemento fundamental, ya que debe ofrecer unas prestaciones adecuadas para dar soporte a las operaciones de comunicación que las aplicaciones requieren que se realicen entre los nodos del sistema.
Por tanto, es crucial optimizar las prestaciones de la red de interconexión, ya que de otro modo puede convertirse en el cuello de botella del sistema completo, si no es capaz de responder con un alto rendimiento y una baja latencia cuando se ejecutan aplicaciones de cómputo intensivo el sistema. Entre los factores más importantes que condicionan las prestaciones (y por tanto el diseño) de la red de interconexión destacan la topología, el algoritmo de encaminamiento, la arquitectura de los elementos de la red (conmutadores y enlaces), etc.
El objetivo de este TFG es el estudio, modelado en herramientas de simulación y evaluación de topologías de red de interconexión de última generación para supercomputadores y centros de proceso de datos, como la topología Megafly o Dragonfly+, propuestas para sistemas de tipo clúster por Intel y NVIDIA, respectivamente. En primer lugar, se estudiará el patrón de conexión de estas topologías y después se modelarán en herramientas de simulación. El grupo de investigación RAAP de la UCLM utiliza varios de estos simuladores y varias librarías para el modelado de redes de interconexión de altas prestaciones, así como de sus topologías correspondientes. También se estudiará y modelará el algoritmo de encaminamiento más apropiado para estas topologías. Finalmente, se ejecutarán experimentos y pruebas para evaluar el rendimiento de estas topologías en comparación con otras topologías anteriormente propuestas.
Para la realización de este TFG se utilizarán dos herramientas fundamentales: el simulador de redes de interconexión INASim y la librería de generación de topologías TopGen. El simulador INASim fue desarrollado desde cero hace más de una década, y se ha ido actualizando y refinando desde entonces. Durante este tiempo, la funcionalidad de generación de topologías y de los algoritmos de encaminamiento se ha encapsulado en una librería aparte, denominada TopGen (ver referencia en la sección de Bibliografía). TopGen genera la topología en función de los parámetros de entrada del usuario (es decir de los parámetros que el usuario introduce en el simulador), y proporciona al simulador la información de cómo se conectan los elementos de la red. Además, TopGen se encarga de implementar el algoritmo de encaminamiento, y proporciona esta información al simulador para rellenar las tablas de encaminamiento. TopGen se puede utilizar con cualquier simulador de redes de interconexión, y para ello es necesario que el simulador se integre con esta librería. El simulador INASim utiliza la librería TopGen y, por tanto, el esfuerzo para modelar y simular una nueva topología y su correspondiente algoritmo de encaminamiento se centrará, casi en su totalidad, en modificar la librería TopGen.
Para alcanzar los objetivos del TFG, las actividades principales a realizar por el alumno son las siguientes (se indica el tiempo estimado de realización en meses, asumiendo una dedicación de 8 meses, 37,5 horas/mes y 300 horas de dedicación total al TFG):
1) Conocer con un nivel de detalle adecuado a la carga del TFG el estado del arte de las redes de interconexión de altas prestaciones, las topologías y algoritmos de encaminamiento para redes de interconexión de altas prestaciones y de las herramientas de simulación de redes, mediante el estudio de la bibliografía y los simuladores disponibles en el grupo RAAP (1,5 meses).
2) Familiarizarse con el proceso de desarrollo del simulador y la librería de generación de topologías (1,5 meses).
3) Modelado de la topología Megafly/Dragonfly+ en la librería TopGen (2 meses).
4) Estudio comparativo y evaluación de las prestaciones de los modelos desarrollados (2 meses).
5) Documentación de los resultados y redacción de la memoria de TFG (1 mes).
Las competencias que este proyecto puede contribuir a adquirir son las siguientes:
[CO19] Ejercicio original a realizar individualmente y presentar y defender ante un tribunal universitario, consistente en un proyecto de naturaleza profesional en el ámbito de la tecnología específica de la Ingeniería en Informática que ha realizado el estudiante. En este ejercicio se deben sintetizar e integrar las competencias adquiridas en las enseñanzas.
[IC3] Capacidad de analizar y evaluar arquitecturas de computadores, incluyendo plataformas paralelas y distribuidas, así como desarrollar y optimizar software para las mismas.
[IC4] Capacidad de diseñar e implementar software de sistema y de comunicaciones.
[IC7] Capacidad para analizar, evaluar, seleccionar y configurar plataformas hardware para el desarrollo y ejecución de aplicaciones y servicios informáticos.
[IC8] Capacidad para diseñar, desplegar, administrar y gestionar redes de computadores.
[UCLM3] Correcta comunicación oral y escrita.
[INS1] Capacidad de análisis, síntesis y evaluación.
[INS2] Capacidad de organización y planificación.
[SIS5] Creatividad.
La bibliografía básica para el desarrollo del TFG es la siguiente:
- Diversos libros y artículos sobre redes de interconexión, modelado y simulación.
- Documentación de los simuladores y librerías asociadas.
- Juan Antonio Villar, German Maglione Mathey, Jesús Escudero-Sahuquillo, Pedro Javier García, Francisco J. Alfaro, José Luis Sánchez Garcia, Francisco J. Quiles. TopGen: A Library to Provide Simulation Tools with the Modeling of Interconnection Network Topologies. HPCS 2018: 452-459.
- Manuales de C++.
- HOWTO's para lanzar simulaciones de gran tamaño en los clústeres de cómputo GALGO y CELLIA, disponibles en el I3A.
Toda la bibliografía está disponible.