Escuela Superior de Ingeniería Informática

cambiar a curso: 2014-15 2016-17

Trabajo Fin de Grado 2015-16

Homogeneización y estabilización de Raw Data’s Clínicos

Especialidades
Tecnologías de la Información

Tutor
GARCIA-CONSUEGRA BLEDA, JESUS DAMIAN

Descripción y Objetivos
La reutilización de datos clínicos procedentes de la Historia Clínica Electrónica (HCE) para usos secundarios como Sistemas de Ayuda a la Toma de Decisión (CDSS), Monitorización de procesos clínicos e Investigación sanitaria, implica asegurar la calidad de sus datos^1,2.

A nivel conceptual, múltiples estudios coinciden en definir un conjunto aspectos o dimensiones de calidad de datos que deben ser evaluadas^2-6. Además, los problemas de calidad de datos pueden estructurarse en distintos niveles de granularidad sobre los que medir las dimensiones utilizando diferentes ejes⁶.

El Hospital Virgen del Castillo, perteneciente a la Gerencia del Área V de Salud del Servicio Murciano de Salud, mantiene abierta desde 2008 una línea de trabajo en calidad de datos biomédicos liderada por el servicio de pediatría y la sección de tecnologías de la información. Esta línea se consolidó como línea de investigación en colaboración con el Grupo de Investigación en Informática Biomédica (IBIME) de la Universidad Politécnica de Valencia a partir de 2012 en el ámbito perinatal y de alimentación del lactante hasta los dos años.

Fruto de esta colaboración, han definido un proceso de generación de repositorios de datos clínicos con calidad asegurada⁸ basado en el framework propuesto por Saez et all⁶ que define 9 dimensiones de calidad de datos. Dicho proceso está formado por una serie de 13 procedimientos donde podemos diferenciar dos bloques en el proceso de generación de repositorios: El primero consiste en el aseguramiento de la integridad de la estructura de datos; debido a que las organizaciones sanitarias son entornos cambiantes donde se producen continuos cambios en la forma de registrar la información clínica, es preciso homogeneizar y estabilizar estos datos antes de realizar el segundo bloque de análisis de calidad de datos relacionado con la semántica clínica de los mismos, para obtener finalmente el repositorio con calidad asegurada.

El objetivo del presente trabajo es generar un software que cubra el bloque estructural del proceso de aseguramiento de calidad de datos definido por García-de-León-Chocano R et all⁸. El software cubrirá la carga de información procedente de la HCE (Raw Data) y la generación de un repositorio homogéneo y estable (correspondiente al repositorio intermedio del proceso completo de aseguramiento, origen de datos para las fases relacionadas con el aseguramiento semántico). Durante la generación del repositorio homogéneo y estable, la evaluación de calidad de datos se realiza sobre 3 de las dimensiones del modelo de Saez et all⁶: Validez Predictiva, Contextualización y Estabilidad temporal.

Metodología y Competencias
El aseguramiento de la estructura se realizará mediante 6 procedimientos a partir del Raw Data procedente de la HCE:

Parametrización del sistema (parámetros estructurales)

Selección de variables informativas

Armonización de formularios y variables multicódigo

Detección y corrección de formularios mal asignados

Estandarización del contexto

Recodificación y armonización de categorías de variables

El trabajo será desarrollado en las siguientes fases:

Revisión de la literatura

Definición de las estructuras de datos

Generación de interfaces clínicos

Desarrollo de los procedimientos

Prueba del software.

El trabajo en el hospital será coordinado por Ricardo García de León Chocano, jefe de sección de tecnologías de la información.

Medios a utilizar
Se utilizará software libre tanto para conectar con las BBDD origen como para el desarrollo del software.

el trabajo se realizará fundamentalmente en las instalaciones del hospital.

Bibliografía

Weng C, Appelbaum P, Hripcsak G, et al. Using EHRs to integrate research with patient care: promises and challenges. J Am Med Inform Assoc. 2012 ;19: 684-7.

Weiskopf NG, Weng C. Methods and dimensions of electronic health record data quality assessment: enabling reuse for clinical research. J Am Med Inform Assoc. 2013; 20: 144-51.

Wang RY, Strong DM Beyond Accuracy: What Data Quality Means to Data Consumers. J Manag Inform Syst. 1996; 12: 5-34.

Karr AF et.al. Data quality: A statistical perspective. Stat Meth 2006; 3: 137-173.

Cruz-Correia R.J et al. Data Quality and Integration Issues in Electronic Health Records. V. Hristidis (ed.) Information Discovery On Electronic Health Records. 2010; 55-96.

Sáez C, Martínez-Miranda J, Robles M, García-Gómez JM. Organizing data quality assessment of shifting biomedical data. Stud Health Technol Inform. 2012; 180: 721-5.

Oliveira P, et al. A formal definition of data quality problems. MIT IQ Conference, 10-12 Nov, 2005.

García-de-León-Chocano R, Sáez C, Muñoz-Soler V, García-de-León-Gonzalez R, García-Gómez JM. Construction of quality-assured infant feeding process of care data repositories: definition and design (Part 1). Computers in Biology and Medicine [ACEPTADO, PENDIENTE DE PUBLICACIÓN]

Asignación
El Trabajo Fin de Grado ha sido a asignado a Don/Doña LUIS CLEMENTE VILLAESCUSA