En 1992 se descubrió (oficialmente) el primer exoplaneta o planeta que gira alrededor de otras estrellas, algo que hasta hace sólo unas décadas parecía ciencia-ficción. Desde entonces se han descubierto otros muchos, hasta tacadas de 715 como la anunciada por la NASA en 2014.
La detección de estos mundos tan lejanos se hace por distintos métodos, no muy sofisticados, la verdad. En particular, el más usado o “método de tránsito” consiste en observar que el planeta bloquea algo de luz de la estrella, si esto se repite con suficiente frecuencia se puede deducir que se debe a la presencia de un planeta. El telescopio espacial Kepler ha sido el más exitoso en esta tarea, con más de 1000 exoplanetas descubiertos.
En este TFG abordaremos esta tarea desde el punto de vista de la ciencia de datos, analizando un conjunto de datos disponible en la plataforma Kaggle (https://www.kaggle.com/keplersmachines/kepler-labelled-time-series-data/home) correspondiente al procesamiento de un número de observaciones realizadas por el telescopio espacial Kepler (NASA).
El conjunto de datos contienen 5087 registros u observaciones, cada una definida por 3198 variables o características, la variable clase que toma dos valores (exoplaneta o no) y 3197 correspondientes a mediciones de flujos de luz sobre el tiempo. De las 5087 observaciones 37 son exo-planetas de estrellas y 5050 no corresponden a exo-planetas de estrella.
El conjunto de datos contiene como podemos observar distintas características que lo hacen especialmente complicado: componente temporal, alta dimensionalidad y extremado desequilibrio en la distribución de la variable clase.
El objetivo de este trabajo es usar e implementar técnicas de ciencia de datos que aborden el problema como clasificación supervisada en “imbalanced dataset” y mediante detección de anomalías. La variante temporal se tratará mediante el uso de series temporales y/o transformando los datos en “planos”, en función de la evaluación del TFG. Obviamente el preprocesamiento de los datos jugará un papel principal, en particular la selección de variables.