TRABAJOS FIN DE GRADO curso: 2018-19
Aplicación de ciencia de datos a medicina personalizada: clasifiacación de mutaciones genéticas en tumores. |
Tecnologías Específicas
Computación
Descripcion y Objetivos
Con el avance de la tecnología y la reducción de costes en los estudios genéticos, la medicina personalizada se vislumbra como un camino exitoso en la mejoría de la definición de los tratamientos para el par . Un caso de estudio es el tratamiento del cáncer.
Una vez que el genoma de un tumor cancerígeno ha sido secuenciado, puede sufrir miles de mutaciones. El desafío es distinguir entre las mutaciones que contribuyen a un crecimiento del tumor (llamadas drivers) y las mutaciones neutras (llamadas passengers). Actualmente esta clasificación se hace manualmente, lo que hace que la tarea sea muy costosa en tiempo y no escalable a toda la población. Con el objetivo de avanzar en la automatización de esta tarea, el Memorial Sloan Kettering Cancer Center (MSKCC) ha puesto a disposición de la comunidad científica una base de datos con miles de mutaciones anotada por expertos. Esta base de datos ha dado lugar a un desafío/competición recogida en uno de los congresos más rigurosos en técnicas de minería de datos (NIPS'2017). El objetivo de este trabajo fin de grado no es obviamente ganar dicha competición, si no realizar un estudio de ciencia de datos sobre dicho conjunto de datos para identificar los procesos y algoritmos más eficaces para la clasificación de las mutaciones en drivers/passengers.
Aunque el problema es suficientemente difícil de por sí, además la base de datos está formada por un conjunto de evidencias clínicas en forma de texto no estructurado, lo que requerirá analizar dicho texto y transformarlo en representaciones estructuradas más subceptibles de ser tratadas por los algoritmos de minería de datos.
Metodología y Competencias
Metodología:
- Revisar el contexto del problema y la literatura disponible.
- Realizar un análisis exploratorio de los datos existentes.
- Transformar las representaciones no estructuradas (textuales) en representaciones estructuradas usando técnicas de procesamiento del lenguaje natural.
- Sobre la partición de datos de entrenamiento diseñar procesos de minería de datos centrados en:
- Preprocesamiento de datos (selección de variables, construcción de variables, discretización, etc.)
- Identificación de los algoritmos de minería de datos que mejor encajen en el problema objetivo. Aplicar realizando selección de modelos en función de los parámetros.
- Validación de los modelos obtenidos.
- Iterar refinando los pasos anteriores hasta determinar uno o varios modelos exitosos.
- Documentar todo el proceso anterior para que sea repetible.
- Estimar la bondad de los modelos finales (seleccionados) sobre el conjunto de datos de test reservado a tal efecto.
- Redactar la memoria.
Competencias:
Se trabajarán principalmente (en distinto grado) las siguientes competencias específicas de la tecnología de computación:
-
Capacidad para conocer los fundamentos teóricos de los lenguajes de programación y las
técnicas de procesamiento léxico, sintáctico y semántico asociadas, y saber aplicarlas para la
creación, diseño y procesamiento de lenguajes.
-
Capacidad para evaluar la complejidad computacional de un problema, conocer estrategias algorítmicas que puedan conducir a su resolución y recomendar, desarrollar e implementar aquella que garantice el mejor rendimiento de acuerdo con los requisitos establecidos.
-
Capacidad para conocer los fundamentos, paradigmas y técnicas propias de los sistemas
inteligentes y analizar, diseñar y construir sistemas, servicios y aplicaciones informáticas
que utilicen dichas técnicas en cualquier ámbito de aplicación.
-
Capacidad para adquirir, obtener, formalizar y representar el conocimiento humano en una
forma computable para la resolución de problemas mediante un sistema informático en
cualquier ámbito de aplicación, particularmente los relacionados con aspectos de
computación, percepción y actuación en ambientes entornos inteligentes.
-
Capacidad para conocer y desarrollar técnicas de aprendizaje computacional y diseñar e
implementar aplicaciones y sistemas que las utilicen, incluyendo las dedicadas a extracción
automática de información y conocimiento a partir de grandes volúmenes de dato.
Medios a utilizar
Ordenadores personales, compiladores y entornos de programación. Todo disponible en la ESIIAB.
Bibliografía
Libros y manuales de aprendizaje automático, procesamiento del lenguaje natural y ciencia/minería de datos. Libros y manuales de lenguajes de programación y librerías específicas (machine learning, pln, etc.). Todo disponible en la ESIIAB y/o en internet.
Tutores GAMEZ MARTIN, JOSE ANTONIO ALFARO JIMENEZ, JUAN CARLOS | Alumno MACHADO HERNÁNDEZ, YUNIOR
|
|