№ 02 · Case Study · CDSS clínico

Un CDSS de riesgo diabético con explicabilidad clínica

Un modelo que no se mide en una métrica de leaderboard, sino en algo más incómodo y más útil: si un médico de atención primaria puede leer la salida del modelo, entender por qué ese paciente y no otro, y actuar sobre ella sin rezar.

Fecha

Febrero – Marzo 2026

Institución

Máster en IA aplicada a Sanidad · CEMP

Rol

Diseño clínico + modelado

Random ForestXAI / SHAPScikit-learnCDC BRFSSEU AI ActEHDS

Ver demo en Hugging Face →Repositorio GitHub

01 / Problema

El problema clínico antes que el algoritmo

Por qué importa estratificar a tiempo

La diabetes tipo 2 no se diagnostica el día en que aparece. Se diagnostica, en media, entre siete y diez años después de que empieza a desarrollarse, cuando el paciente ya tiene daño microvascular silencioso, resistencia a la insulina establecida y, a menudo, complicaciones iniciales en retina o riñón. Todo ese daño es evitable si se detecta la fase prediabética y se interviene con modificación de estilo de vida o metformina.

El problema es que la atención primaria no puede cribar universalmente con pruebas de laboratorio. No hay tiempo, no hay presupuesto, y un porcentaje alto de la población diana no acude al médico hasta que tiene síntomas. La estratificación de riesgo con variables conductuales y demográficas —las que sí se pueden recoger en una consulta de diez minutos— es el paso previo que permite priorizar a quién pedir la prueba de laboratorio.

Un CDSS no sustituye la glucemia en ayunas. Permite que el médico pida la glucemia en ayunas a las personas que realmente tienen riesgo elevado, en lugar de cribar a todo el mundo o, peor aún, a nadie.

02 / Dataset

Por qué CDC BRFSS y no otro dataset

Realismo poblacional vs. limpieza académica

El dataset canónico en la literatura académica para este problema es Pima Indians Diabetes, con 768 registros y ocho variables limpias. Es útil para aprender, pero no representa la población real y sobreestima el rendimiento de cualquier modelo. Un AUC de 0.85 en Pima no dice nada sobre cómo funcionará el modelo en atención primaria.

El Behavioral Risk Factor Surveillance System (BRFSS) del CDC estadounidense es otra liga: 253.680 registros reales de encuesta telefónica con más de 250 variables conductuales y demográficas. Incluye ruido real, valores faltantes reales, y la distribución desbalanceada real de prediabetes, diabetes y normoglucemia en población general. Un modelo que funciona aquí es un modelo que ha visto condiciones parecidas a las del despliegue.

La decisión de diseño fue no limpiar el dataset más allá de lo estrictamente necesario. Los valores faltantes se imputaron explicitando la decisión, los outliers conductualmente coherentes se mantuvieron, y la proporción de clases no se balanceó artificialmente con SMOTE. El modelo aprende sobre la distribución que va a encontrar en producción.

03 / Modelado

Random Forest con explicabilidad clínica

AUC-ROC 0.942 sobre validación estratificada

0.942

AUC-ROC en validación estratificada. Se sitúa en el top 5% de modelos publicados en literatura para datasets equivalentes de estratificación de riesgo diabético.

La elección de Random Forest frente a gradient boosting no es accidental. Random Forest ofrece mejor calibración de probabilidad en clases desbalanceadas sin postprocesado, lo que importa porque el output del CDSS es una probabilidad clínica, no una etiqueta binaria. Un modelo cuyo 0.7 significa realmente un 70% de probabilidad es más útil para un médico que un modelo que acierta más pero da probabilidades mal calibradas.

El pipeline incluye análisis de equidad algorítmica por subgrupos demográficos (sexo, edad, etnia). El modelo tiene sesgos conocidos hacia subgrupos mejor representados en el BRFSS, y eso está documentado explícitamente en el informe. No se oculta detrás de una métrica agregada.

La capa de explicabilidad se implementa con SHAP. Para cada paciente concreto, el CDSS muestra qué variables empujan la probabilidad hacia arriba y cuáles la empujan hacia abajo, con magnitud cuantificada. Un médico que reciba un score de 0.73 puede ver que ese score viene, por ejemplo, del BMI y la actividad física del paciente, y usa esa información para personalizar la intervención, no solo para decidir si pedir la prueba.

04 / Límites

Lo que el modelo no es

Honestidad clínica sobre el alcance

El modelo está entrenado con datos estadounidenses. La transferencia directa a población española es cuestionable sin revalidación: los patrones de actividad física, dieta y acceso al sistema sanitario son distintos, y eso puede desplazar la distribución condicional entre variables. Un despliegue real requiere recalibración con datos locales, sea de SNS o de aseguradora privada.

El modelo clasifica riesgo, no diagnostica. La diferencia importa regulatoriamente: bajo EU AI Act cae como sistema de apoyo a la decisión clínica (HIGH_RISK vía Anexo III punto 5a si se despliega para triaje de servicio esencial, LIMITED_RISK si es herramienta de apoyo poblacional). Bajo MDR podría caer como SaMD clase IIa si el fabricante declara propósito médico. La clasificación exacta depende del uso intencionado.

El output no es accionable sin criterio médico. Un score de 0.73 debe leerse en contexto: edad, antecedentes familiares, comorbilidades previas, adherencia esperada a cambios de estilo de vida. El CDSS ayuda a priorizar, no a prescribir.

05 / Implicaciones

Dónde encaja en un sistema sanitario real

Atención primaria, aseguradoras, programas de prevención

El caso de uso más natural es atención primaria: integrar el CDSS en el sistema de historia clínica electrónica para que, cuando el médico abre la consulta de un paciente con factores de riesgo reconocibles, vea el score y el desglose SHAP junto a las constantes vitales. No cambia el flujo del médico, le da información adicional que puede ignorar o usar.

El segundo caso es aseguradoras y programas de prevención corporativa. La estratificación poblacional permite diseñar campañas focalizadas: screening activo en los subgrupos con probabilidad elevada, en lugar de campañas universales con baja adherencia. El retorno sanitario y económico es medible, no especulativo.

El tercer caso es ensayos clínicos de intervenciones preventivas. Seleccionar pacientes de alto riesgo para probar metformina profiláctica, intervenciones de estilo de vida estructuradas o nuevos fármacos, con criterio homogéneo y reproducible, en lugar de criterios manuales distintos por centro.

06 / Stack

Stack y marco regulatorio

Decisiones técnicas explícitas

Lenguaje	Python 3.11
ML	Scikit-learn · Random Forest · validación estratificada
Explicabilidad	SHAP · análisis de equidad por subgrupos demográficos
Dataset	CDC BRFSS · 253.680 registros reales
Demo	Streamlit desplegado en Hugging Face Spaces
Marco regulatorio	RGPD · EU AI Act (LIMITED_RISK o HIGH_RISK según propósito de uso) · EHDS como restricción de arquitectura de datos

Siguiente paso

¿Tu equipo desarrolla un CDSS o valida uno de un proveedor?

Puedo revisar el diseño clínico, la estrategia de explicabilidad, la calibración de probabilidad y el encaje regulatorio. Tanto para HealthTech en fase de despliegue como para hospitales que están evaluando un sistema antes de firmar.

Conversar sobre un caso Ver roles que me interesan