cambiar a curso:   2017-18   2019-20


Grado en Ingeniería Informática


TRABAJOS FIN DE GRADO
curso: 2018-19

Detección de exoplanetas-estrella usando ciencia de atos a partir de datos capturados por el telescopio espacial Kepler


Tecnologías Específicas

Computación
 


Descripcion y Objetivos

En 1992 se descubrió (oficialmente) el primer exoplaneta o planeta que gira alrededor de otras estrellas, algo que hasta hace sólo unas décadas parecía ciencia-ficción. Desde entonces se han descubierto otros muchos, hasta tacadas de 715 como la anunciada por la NASA en 2014.

La detección de estos mundos tan lejanos se hace por distintos métodos, no muy sofisticados, la verdad. En particular, el más usado o “método de tránsito” consiste en observar que el planeta bloquea algo de luz de la estrella, si esto se repite con suficiente frecuencia se puede deducir que se debe a la presencia de un planeta. El telescopio espacial Kepler ha sido el más exitoso en esta tarea, con más de 1000 exoplanetas descubiertos.

En este TFG abordaremos esta tarea desde el punto de vista de la ciencia de datos, analizando un conjunto de datos disponible en la plataforma Kaggle (https://www.kaggle.com/keplersmachines/kepler-labelled-time-series-data/home) correspondiente al procesamiento de un número de observaciones realizadas por el telescopio espacial Kepler (NASA).

El conjunto de datos contienen 5087 registros u observaciones, cada una definida por 3198 variables o características, la variable clase que toma dos valores (exoplaneta o no) y 3197 correspondientes a mediciones de flujos de luz sobre el tiempo. De las 5087 observaciones 37 son exo-planetas de estrellas y 5050 no corresponden a exo-planetas de estrella.

El conjunto de datos contiene como podemos observar distintas características que lo hacen especialmente complicado: componente temporal, alta dimensionalidad y extremado desequilibrio en la distribución de la variable clase.

El objetivo de este trabajo es usar e implementar técnicas de ciencia de datos que aborden el problema como clasificación supervisada en “imbalanced dataset” y mediante detección de anomalías. La variante temporal se tratará mediante el uso de series temporales y/o transformando los datos en “planos”, en función de la evaluación del TFG.  Obviamente el preprocesamiento de los datos jugará un papel principal, en particular la selección de variables.

 

 


Metodología y Competencias

 Metodología:

  1. Revisar el contexto del problema y la literatura disponible.
  2. Realizar un análisis exploratorio de los datos existentes.
  3. Determinar las métricas que se usarán para guiar el proceso de búsqueda y selección de modelos.
  4. Determinar el proceso de validación a seguir.
  5. Estudio basado en clasificación supervisada.
    1. Selección de clasificadores.
    2. Uso de técnicas de remuestreo.
    3. Selección de variables.
    4. Consideración de la variable tiempo.
  6. Estudio basado en detección de anomalías.
    1. Modelos basados en ensembles (IsolationForest)
    2. Modelos probabilísticos.
    3. Selección de variables.
    4. Consideración de la variable tiempo.
  7. Documentar todo el proceso anterior para que sea repetible.

       8. Redactar la memoria.

   

Competencias:

    Se trabajarán principalmente (en distinto grado) las siguientes competencias específicas de la tecnología de computación:

  • Capacidad para evaluar la complejidad computacional de un problema, conocer estrategias algorítmicas que puedan conducir a su resolución y recomendar, desarrollar e implementar aquella que garantice el mejor rendimiento de acuerdo con los requisitos establecidos.
  • Capacidad para conocer los fundamentos, paradigmas y técnicas propias de los sistemas inteligentes y analizar, diseñar y construir sistemas, servicios y aplicaciones informáticas que utilicen dichas técnicas en cualquier ámbito de aplicación.
  • Capacidad para adquirir, obtener, formalizar y representar el conocimiento humano en una forma computable para la resolución de problemas mediante un sistema informático en cualquier ámbito de aplicación, particularmente los relacionados con aspectos de computación, percepción y actuación en ambientes entornos inteligentes.
  • Capacidad para conocer y desarrollar técnicas de aprendizaje computacional y diseñar e implementar aplicaciones y sistemas que las utilicen, incluyendo las dedicadas a extracción automática de información y conocimiento a partir de grandes volúmenes de datos.

     

 

 


Medios a utilizar

Ordenadores personales, compiladores y entornos de programación. Todo disponible en la ESIIAB.

 

 


Bibliografía

Libros y manuales de aprendizaje automático, relativos al dominio de problema y ciencia/minería de datos. Libros y manuales de lenguajes de programación y librerías específicas de aprendizaje automático. Todo disponible en la ESIIAB y/o en internet.

 

 


Tutores


GAMEZ MARTIN, JOSE ANTONIO
PUERTA CALLEJON, JOSE MIGUEL
 

Alumno


OLIVER CORTÉS, PABLO