cambiar a curso:   2017-18   2019-20


Grado en Ingeniería Informática


TRABAJOS FIN DE GRADO
curso: 2018-19

Caracterización y modelado del tráfico de comunicaciones en sistemas Data-Centre y Deep Learning para su uso en herramientas de simulación


Tecnologías Específicas

Computación
 


Descripcion y Objetivos

Los centros de proceso de datos (CPDs) son una infraestructura fundamental en la era del Big-Data, donde los datos almacenados en todo el planeta se van a multiplicar por diez en los próximos siete años. Los CPDs deben adaptarse rápidamente a las necesidades de aplicaciones y servicios, como las aplicaciones on-line y los servicios de deep learning, que tienen una gran demanda de datos y requieren unos tiempos de respuesta mínimos. Dentro del CPD, la red de interconexión es un elemento esencial que debe garantizar alta productividad y baja latencia a las operaciones de comunicación de datos de las aplicaciones y servicios mencionados. Por tanto, el tiempo utilizado en la comunicación de datos debe ser mínimo, para garantizar un buen funcionamiento del sistema completo.

Este TFG consiste básicamente en el estudio y modelado de los patrones de tráfico que se dan en las redes de interconexión de CPDs y sistemas deep learning, dos tipos de sistemas de gran auge en los últimos años debido a la popularidad de los servicios y aplicaciones a los que dan soporte. En concreto, se caracterizarán patrones de comunicaciones de los sistemas CPD de Facebook, cuyos datos están disponibles en publicaciones recientes, y se analizará el framework CAFFE de la Universidad de Berkeley. El modelado de dichos patrones se realizará de forma que pueda ser usado en una herramienta de simulación de redes de altas prestaciones, ya existente. Una vez completado el modelado de los patrones de tráfico, se validarán ejecutando las simulaciones pertinentes, corrigiendo si es necesario su implementación.

 


Metodología y Competencias

Para alcanzar los objetivos del TFG, las actividades principales a realizar por el alumno son las siguientes (se indica el tiempo estimado de realización en meses, asumiendo una dedicación de 8 meses, 37,5 horas/mes y 300 horas de dedicación total al TFG):

1) Lectura de documentación y artículos científicos sobre patrones de tráfico para Data-centres y sistemas Deep Learning (1,5 meses).

2) Análisis y caracterización de diversas aplicaciones que hagan uso intensivo de las comunicaciones en los Data-centres y sistemas Deep-Learning. En concreto, se analizarán cargas de trabajo de los Data-Centres de Facebook, y el framework CAFFE de la Universidad de Berkeley. El framework se instalará en el clúster CELLIA del grupo RAAP, para poder analizar mejor el patrón de comunicaciones generado por la aplicación (2,5 meses).

3) Implementación del modelo en una herramienta de simulación. Con la información recabada en el paso anterior, el modelo de tráfico se integrará en la librería TraceLIB, un software para el modelado de patrones de comunicación reales en simuladores de redes de interconexión, extendiendo su funcionalidad a otros tipos de cargas de tráfico. Actualmente, TraceLIB solo da soporte a tráfico de comunicación de aplicaciones MPI (1,5 meses).

4) Verificación del funcionamiento del modelo de tráfico en diferentes redes de interconexión simuladas. Una vez completado el modelo, se realizarán un serie de experimentos en los simuladores de redes de interconexión disponibles en el grupo RAAP, generando las cargas de tráfico según el patrón de comunicaciones modelado en la actividad anterior. Finalmente, se analizarán los resultados obtenidos, y se verificará que el comportamiento de los patrones de tráfico es el esperado (1,5 meses).

5) Documentación de los resultados y redacción de la memoria de TFG (1 mes).

Competencias adquiridas:

- Capacidad para tener un conocimiento profundo de los principios fundamentales y modelos
de la computación y saberlos aplicar para interpretar, seleccionar, valorar, modelar, y crear nuevos conceptos, teorías, usos y desarrollos tecnológicos relacionados con la informática.

- Capacidad para conocer los fundamentos, paradigmas y técnicas propias de los sistemas
inteligentes y analizar, diseñar y construir sistemas, servicios y aplicaciones informáticas que utilicen dichas técnicas en cualquier ámbito de aplicación.

- Capacidad para conocer y desarrollar técnicas de aprendizaje computacional y diseñar e
implementar aplicaciones y sistemas que las utilicen, incluyendo las dedicadas a extracción automática de información y conocimiento a partir de grandes volúmenes de datos.

 


Medios a utilizar

Los medios a utilizar para el desarrollo del TFG son los siguientes:

- Cluster CELLIA del RAAP: este cluster está formado por 50 nodos de cómputo, procesadores Intel Xeon E5, 32 GB de RAM, GPUs y una red de interconexión Ethernet. El cluster está disponible para ser empleado durante la duración del TFG para el análisis del framework CAFFE.

- Librería TraceLIB (http://www.i3a.info/VEFtraces/).

- Simuladores de redes de interconexión, disponibles para el grupo RAAP.

- Ordenador tipo PC.

 


Bibliografía

La bibliografía básica para el desarrollo del TFG es la siguiente:

- Diversos artículos sobre los patrones de tráfico en Data-Centres de Facebook, y sobre el framework CAFFE (https://github.com/BVLC/caffe).

- Manuales de desarrollador de la librería TraceLIB.

- Diversos libros y artículos sobre redes de interconexión.

- Manuales de C++

Toda la bibliografía está disponible.

 


Tutores


GARCÍA GARCÍA, PEDRO JAVIER
ESCUDERO SAHUQUILLO, JESUS
 

Alumno


GONZÁLEZ NAHARRO, LUIS