|
Máster Universitario en Ingeniería Informática |
TRABAJOS FIN DE MÁSTER curso: 2022-23
Modelado y evaluación de la red de interconexión intra-nodo de sistemas de cómputo heterogéneo y distribuido. |
Descripcion y Objetivos
Las redes de interconexión son un elemento fundamental en los computadores de alto rendimiento (HPCs, High-Performance Computers) y los centros de proceso de datos (CPDs o Data-centers), donde los requisitos de comunicación de las aplicaciones y servicios que soportan se multiplican constantemente. En efecto, en estos sistemas, la red de interconexión tiene que dar soporte a la comunicación entre la enorme cantidad de nodos de cómputo y almacenamiento (del orden de hasta cientos de miles de nodos) que son necesarios para ofrecer, entre otros, servicios on-line de uso intensivo de datos (OLDI services), supercomputación, deep learning, almacenamiento masivo, cloud computing, etc. Todos estos servicios manejan enormes volúmenes de datos y al mismo tiempo requieren unos tiempos de respuesta mínimos, por lo que la red de interconexión de estos sistemas debe ofrecer unas prestaciones mínimas bastante elevadas.
En los últimos años, la computación heterogénea está influyendo de forma considerable en la arquitectura de los nodos de procesamiento, ya que las aplicaciones demandan el uso, dentro de un mismo nodo de procesamiento, de un mayor número de unidades de cómputo de propósito específico (GPUs, aceleradores, etc.) y unidades de almacenamiento más rápidas (NVMe). Además, algunas aplicaciones necesitan que estas unidades funcionales se comuniquen entre sí a velocidades elevadas, para llevar a cabo tareas de cómputo y almacenamiento. Esta comunicación se realiza por medio de una red intra-nodo. Por otro lado, será necesario que estas unidades funcionales se comuniquen con otras unidades funcionales situadas en otros nodos, por medio de la interfaz de red de cada nodo. Esta comunicación, se realizará por medio de la red inter-nodo. De hecho, la comunicación entre las unidades funcionales disponibles en un conjunto de nodos heterogéneos involucra tanto la red intra- como a la red inter-nodo. Por tanto, se hace necesario optimizar la comunicación entre las unidades funcionales dentro de un mismo nodo (red intra-nodo), y también la comunicación entre las unidades funcionales de un nodo y las de otros nodos (red inter-nodo), identificando los cuellos de botella que podrían degradar las prestaciones de ambas redes y, por tanto, el rendimiento del sistema completo.
El grupo RAAP de la UCLM desarrolla investigación de vanguardia en redes de interconexión de altas prestaciones para supercomputadores y centros de datos, y colabora activamente con empresas e instituciones internacionales como NVIDIA, ATOS/BULL, Intel, Huawei y el CERN. También, mantiene otras líneas de investigación con universidades como la Universitat Politècnica de València, Jaume I de Castellón, Carlos III de Madrid, ETH de Zürich, Heidelberg y Simula Research Labs (Oslo, Noruega).
Para llevar a cabo esta investigación con éxito, se utilizan herramientas de simulación de redes de interconexión, que permiten modelar el comportamiento de los nuevos de diseños de red propuestos. Entre las herramientas de simulación que utiliza el grupo RAAP, en este TFM se utiliza el simulador de redes de interconexión Sauron, que se desarrolló desde cero hace una década. Este simulador se utilizad actualmente en proyectos de investigación financiados con fondos europeos (proyecto RED-SEA), fondos nacionales (proyectos HEEDA y DIDASI), y con fondos regionales (proyecto TETRA-2). Sauron también se utiliza en convenios de investigación con otros centros de prestigio internacional, como el experimento ATLAS del CERN (Suiza).
El principal objetivo de este TFM es modelar la red intra-nodo en el simulador Sauron, de manera que sea posible analizar la comunicación entre las diferentes unidades funcionales que componen un nodo heterogéneo, a través de la red intra-nodo, y también la comunicación de esas unidades funcionales con otras unidades funcionales situadas en otros nodos, a través de la red inter-nodo. Se utilizarán patrones de trafico realistas para evaluar tanto la comunicación inter- como la intra-nodo. Estos patrones modelan el comportamiento de las operaciones de comunicación de las aplicaciones que habitualmente se ejecutan en Supercomputadores y Data-centers. Finalmente, el modelo de la red inter-nodo en el simulador se comparará con el funcionamiento real del clúster de cómputo y almacenamiento CELLIA, disponible en el grupo RAAP.
Metodología y Competencias
Para la realización de este TFM se utilizarán dos herramientas fundamentales: el simulador de redes de interconexión Sauron (basado en la plataforma OMNeT++) y la librería de generación de topologías TopGen. Ambas herramientas están disponibles para la realización de este TFM.
Para alcanzar los objetivos del TFM, las actividades principales a realizar son las siguientes. Se indica también el tiempo estimado de realización en meses, asumiendo una dedicación total de 225 horas (180 horas de trabajo autónomo y 45 horas de relación con los tutores) a lo largo de 4 meses, y una dedicación de 56,25 horas/mes:
1) Aprendizaje del simulador Sauron y la plataforma OMNeT++ (0,5 mes).
2) Modelado de la red intra-nodo en el simulador Sauron (1,5 meses).
3) Evaluación de las prestaciones del modelado comparado con sistemas reales (1 mes).
4) Documentación de los resultados (1 mes).
Competencias:
-------------
INS01 Capacidad de análisis, síntesis y evaluación.
INS02 Capacidad de organización y planificación.
INS03 Capacidad de gestión de la información.
INS04 Capacidad de resolución de problemas aplicando técnicas de ingeniería.
INS05 Capacidad para argumentar y justificar lógicamente las decisiones tomadas y las opiniones.
PER03 Capacidad de trabajo en un contexto internacional.
PER04 Capacidad de relación interpersonal.
SIS01 Razonamiento crítico.
SIS02 Compromiso ético.
SIS03 Aprendizaje autónomo.
SIS05 Creatividad.
SIS08 Capacidad de iniciativa y espíritu emprendedor.
SIS10 Sensibilidad hacia temas medioambientales.
UCLM01 Dominio de una segunda lengua extranjera en el nivel B1 del Marco Común Europeo de Referencia para las Lenguas.
UCLM02 Capacidad para utilizar las Tecnologías de la Información y la Comunicación.
UCLM03 Correcta comunicación oral y escrita.
UCLM04 Compromiso ético y deontología profesional.
CE1 - Capacidad para la integración de tecnologías, aplicaciones, servicios y sistemas propios de la Ingeniería Informática, con carácter generalista, y en contextos más amplios y multidisciplinares.
CE4 - Capacidad para modelar, diseñar, definir la arquitectura, implantar, gestionar, operar, administrar y mantener aplicaciones, redes, sistemas, servicios y contenidos informáticos.
CE5 - Capacidad de comprender y saber aplicar el funcionamiento y organización de Internet, las tecnologías y protocolos de redes de nueva generación, los modelos de componentes, software intermediario y servicios.
CE16 - Realización, presentación y defensa, una vez obtenidos todos los créditos del plan de estudios, de un ejercicio original realizado individualmente ante un tribunal universitario, consistente en un proyecto integral de Ingeniería en Informática de naturaleza profesional en el que se sinteticen las competencias adquiridas en las enseñanzas.
Medios a utilizar
Los medios a utilizar para el desarrollo del TFM son los siguientes:
- Simulador Sauron, disponible para el grupo RAAP.
- Servidor de GIT y GitLab disponible en el grupo RAAP.
- Clúster CELLIA para cómputo y almacenamiento disponible en el RAAP.
- Ordenador tipo PC.
Bibliografía
La bibliografía básica para el desarrollo del TFM es la siguiente:
- Diversos libros y artículos sobre redes de interconexión, modelado y simulación, principalmente "Interconnection Networks: An Engineering Approach", J. Duato, S. Yalamanchili, and L. M. Ni, Morgan Kaufmann Publishers, 2003.
- Documentación de los simuladores y librerías asociadas.
- Manuales de C++.
Toda la bibliografía está disponible.
Tutores ESCUDERO SAHUQUILLO, JESUS QUILES FLOR, FRANCISCO JOSE | Alumno TÁRRAGA MORENO, ANTONIO JOAQUÍN
|
| |