|
Grado en Ingeniería Informática |
TRABAJOS FIN DE GRADO curso: 2024-25
Estudio Comparativo sobre Sesgo y Fairness en Modelos de Aprendizaje Automático |
Tecnologías Específicas
Computación
Descripcion y Objetivos
El aprendizaje automático ha transformado múltiples áreas, desde la medicina hasta las finanzas, pero también ha revelado desafíos importantes relacionados con el sesgo y la equidad (fairness). Los modelos de aprendizaje automático pueden aprender y amplificar sesgos presentes en los datos de entrenamiento, lo que conlleva decisiones discriminatorias o injustas, afectando a grupos vulnerables por su raza, género, edad, entre otros factores.
Este problema ha captado la atención tanto de la comunidad académica como de la sociedad, destacando la importancia de desarrollar modelos que no solo sean precisos, sino también equitativos [1]. En este trabajo, se plantea realizar un estudio comparativo de técnicas y estrategias que abordan el sesgo y mejoran la justicia en los modelos de aprendizaje automático, comparando diferentes enfoques, clasificadores y su efectividad en distintos tipos de datos.
El estudio cubrirá una variedad de algoritmos y técnicas de mitigación de sesgo, como el preprocesamiento de datos, la modificación de algoritmos de entrenamiento y la corrección de resultados. El objetivo es proporcionar una visión integral sobre qué enfoques son más efectivos en diferentes contextos y cómo lograr modelos que respeten principios de equidad sin sacrificar el rendimiento.
[1] Simon Caton and Christian Haas. 2024. Fairness in Machine Learning: A Survey. ACM Comput. Surv. 56, 7, Article 166 (July 2024), 38 pages. https://doi.org/10.1145/3616865
[2] Ninareh Mehrabi, Fred Morstatter, Nripsuta Saxena, Kristina Lerman, Aram Galstyan: A Survey on Bias and Fairness in Machine Learning. ACM Comput. Surv. 54(6): 115:1-115:35 (2022)
Objetivos
- Identificar y analizar el sesgo en los modelos de aprendizaje automático: Examinar cómo se manifiestan diferentes tipos de sesgo en modelos supervisados, tales como regresión logística, árboles de decisión, redes Bayesianas y redes neuronales.
- Estudiar diferentes métricas de fairness: Comparar métricas como Demographic Parity, Equalized Odds y Predictive Parity para evaluar la justicia en los resultados.
- Explorar técnicas de mitigación del sesgo: Implementar y evaluar estrategias como la reestructuración de datos (re-sampling, re-weighting), modificación de los algoritmos de entrenamiento y ajuste de resultados post-entrenamiento.
- Comparar diferentes algoritmos y enfoques en términos de su precisión, equidad y capacidad de generalización a diferentes conjuntos de datos.
- Desarrollar un framework experimental que permita evaluar la efectividad de las diferentes técnicas y métricas en distintos problemas de clasificación y regresión.
- Proponer mejores prácticas para abordar el sesgo en el aprendizaje automático, proporcionando recomendaciones basadas en el análisis experimental.
- Escritura de la memoria del TFG documentando los resultados del estudio comparativo y las conclusiones extraídas.
Metodología y Competencias
Metodología
- Análisis del Problema del Sesgo: Estudiar la literatura existente sobre el sesgo en el aprendizaje automático, identificando los principales factores que influyen en la aparición de decisiones injustas y qué tipos de sesgo son los más comunes (sesgo de selección, sesgo de medición, etc.).
- Selección de Conjuntos de Datos Representativos: Elegir conjuntos de datos que hayan sido estudiados en el contexto de fairness, como Adult Income Dataset, COMPAS (sistema de evaluación de riesgo en criminalidad), y otros que reflejen problemas reales de sesgo [2].
- Evaluación de Métricas de Fairness: Implementar y comparar métricas de equidad como [4]:
- Demographic Parity: Proporción de predicciones positivas debe ser igual para todos los grupos.
- Equalized Odds: La tasa de verdaderos positivos y falsos positivos debe ser igual entre grupos.
- Predictive Parity: Proporción de verdaderos positivos respecto a predicciones positivas debe ser igual entre grupos.
- Implementación de Técnicas de Mitigación de Sesgo:
- Preprocesamiento: Métodos para equilibrar los datos, como re-sampling y re-weighting, para reducir el sesgo presente antes de entrenar el modelo.
- Modificación de Algoritmos: Ajustes en el proceso de entrenamiento para penalizar decisiones injustas, como técnicas de regularización para fairness.
- Post-procesamiento: Ajustes en las predicciones del modelo para garantizar que los resultados cumplan con las métricas de equidad sin cambiar el modelo subyacente.
- Comparación de Algoritmos: Considerar una variedad de modelos de aprendizaje automático (regresión logística, árboles de decisión, SVMs, redes neuronales) y comparar cómo cada uno se ve afectado por el sesgo y cómo responden a las técnicas de mitigación.
- Análisis Experimental:
- Realizar experimentos con distintos conjuntos de datos para medir el impacto de las técnicas de fairness en términos de precisión, equidad y capacidad de generalización.
- Comparar los resultados obtenidos utilizando las métricas de fairness seleccionadas y evaluando el balance entre rendimiento del modelo y equidad.
- Propuesta de Mejores Prácticas: A partir del análisis experimental, elaborar recomendaciones sobre qué técnicas y métricas son más adecuadas en función del tipo de problema y los datos disponibles.
- Desarrollo de un Framework: Implementar un framework en el que se puedan cargar diferentes conjuntos de datos y modelos para aplicar las técnicas de mitigación de sesgo y calcular las métricas de fairness.
- Documentación: Redactar la memoria del TFG explicando los hallazgos, los retos encontrados y las propuestas de mitigación del sesgo en los modelos de aprendizaje automático.
[3] Tai Le Quy, Arjun Roy, Vasileios Iosifidis, Wenbin Zhang, Eirini Ntoutsi: A survey on datasets for fairness-aware machine learning. WIREs Data Mining Knowl. Discov. 12(3) (2022)
[4] Oksana Zdrok. Fairness Metrics in AI—Your Step-by-Step Guide to Equitable Systems. 2024.https://shelf.io/blog/fairness-metrics-in-ai/
Competencias
Las competencias que se trabajarán en este proyecto son:
- [CM5] Capacidad para adquirir, obtener, formalizar y representar el conocimiento humano en una forma computable para la resolución de problemas mediante un sistema informático en cualquier ámbito de aplicación, particularmente los relacionados con aspectos de computación, percepción y actuación en ambientes o entornos inteligentes.
- [CM7] Capacidad para conocer y desarrollar técnicas de aprendizaje computacional y diseñar e implementar aplicaciones y sistemas que las utilicen, incluyendo las dedicadas a extracción automática de información y conocimiento a partir de grandes volúmenes de datos.
Medios a utilizar
- Herramientas de programación como Python, junto con librerías especializadas en aprendizaje automático como Scikit-learn, AIF360 (IBM's Fairness Toolkit), y Fairlearn.
- Conjuntos de datos etiquetados y previamente estudiados en el contexto de fairness y sesgo.
- Entornos de computación adecuados para el procesamiento de datos y la experimentación, disponibles en la universidad o en la nube.
Bibliografía
- Libros y artículos sobre fairness y sesgo en aprendizaje automático, como "Fairness and Machine Learning" de Barocas, Hardt y Narayanan.
- Documentación de herramientas especializadas como Fairlearn y AIF360.
- Artículos científicos recientes en conferencias como NeurIPS, ICML, y FAT/ML (Fairness, Accountability, and Transparency in Machine Learning).
Tutores GAMEZ MARTIN, JOSE ANTONIO ALFARO JIMENEZ, JUAN CARLOS | Alumno SANCHEZ NAVARRO, RAFAEL
|
| |