Summary
- A medida que la IA se generaliza, los sistemas de salud se enfrentan a una pregunta práctica que las estructuras de gobernanza por sà solas no pueden responder: ¿cómo saber si realmente funciona? Este blog aborda la labor práctica de monitorizar la IA en
La gobernanza indica qué requiere supervisión. El monitoreo indica si dicha supervisión está funcionando.
Para desarrollar una guÃa práctica sobre este desafÃo, la Âé¶¹Ó³» Leadership Alliance convocó un Acelerador de IA que reunió a lÃderes de diversas organizaciones de atención médica para identificar estrategias prácticas de monitoreo de IA que reflejen la realidad actual de la atención médica. Las conclusiones que se presentan a continuación reflejan la experiencia colectiva del grupo.
Un ejemplo real de seguimiento y supervisión
Consideremos un ejemplo real de un modelo de IA para la predicción de reingresos por insuficiencia cardÃaca, diseñado para identificar pacientes de alto riesgo e impulsar una intervención temprana. Cuando el equipo de ciencia de datos evaluó el rendimiento del modelo, la métrica principal (área bajo la curva [AUC]) superó el umbral estándar de rendimiento aceptable. Según los estándares convencionales, el modelo pareció funcionar bien.
Pero el comité de supervisión planteó una pregunta diferente: cuando este modelo marca a un paciente como de alto riesgo, ¿con qué frecuencia acierta? La respuesta reveló un problema que la métrica principal de rendimiento habÃa ocultado. El modelo era razonablemente eficaz al clasificar a los pacientes de menor a mayor riesgo en términos generales, pero cuando marcaba especÃficamente a un paciente individual como de alto riesgo, se equivocaba la mayorÃa de las veces.
Esta distinción es fundamental para el flujo de trabajo clÃnico. Si un equipo de atención recibe 10 alertas de alto riesgo en una semana y solo uno o dos de esos pacientes son readmitidos, el equipo aprenderá rápidamente a ignorarlas. El modelo se convierte en ruido en lugar de señal, no porque el algoritmo subyacente fallara, sino porque la métrica utilizada para evaluarlo no refleja la realidad de cómo los médicos utilizan la herramienta en la práctica clÃnica.
La lección es que un monitoreo eficaz requiere plantear las preguntas correctas: no solo "¿Es preciso el modelo?", sino "¿Es preciso el modelo en las maneras en que afecta su integración en los flujos de trabajo del sistema de salud?". Responder a estas preguntas requiere acceso a expertos en ciencia de datos, ya sea a través de equipos internos o socios externos de confianza, que puedan traducir el rendimiento estadÃstico a la relevancia clÃnica.
Los tres dominios de la monitorización de la IA
Una monitorización eficaz de la IA no puede centrarse únicamente en la precisión del modelo. Un modelo técnicamente sólido puede no mejorar los resultados de los pacientes si los profesionales sanitarios no confÃan en él o si la población a la que atiende ha cambiado desde su validación. Por lo tanto, una monitorización integral requiere atención a tres áreas distintas.
- Rendimiento estadÃstico: la precisión técnica del propio modelo . Esto incluye métricas tradicionales como el AUC, la sensibilidad, la especificidad y el valor predictivo positivo y negativo. El rendimiento estadÃstico proporciona una base necesaria, pero no es suficiente por sà solo. Un modelo validado con datos del año anterior podrÃa no reflejar los pacientes de este año, incluso si sus métricas estadÃsticas parecen estables. Por lo tanto, el rendimiento estadÃstico se supervisa periódicamente para facilitar la supervisión del uso del modelo en el sistema sanitario.
- Rendimiento de los resultados: si los pacientes se benefician de la implementación de la herramienta de IA. Las métricas estadÃsticas describen el rendimiento técnico del modelo; las métricas de resultados describen qué sucede con los pacientes como resultado. ¿Disminuyeron los reingresos? ¿Se redujeron las brechas de equidad? ¿Mejoró la mortalidad? Incluso un modelo con un rendimiento estadÃstico sólido falla si los pacientes no se benefician. Medir el rendimiento de los resultados requiere vincular las predicciones de la IA con los eventos clÃnicos posteriores. Este trabajo requiere muchos recursos, pero es, en última instancia, la mejor manera de determinar si la herramienta ofrece un valor real.
- Adopción por parte de los usuarios: si los profesionales sanitarios utilizan la herramienta según lo previsto. El modelo más preciso no tiene ningún impacto si los profesionales sanitarios lo ignoran. Monitorizar la adopción por parte de los usuarios implica verificar si los profesionales sanitarios interactúan con la herramienta, si siguen sus recomendaciones y si esta se integra fluidamente en los flujos de trabajo existentes o genera fricciones que conducen a soluciones alternativas. El monitoreo de usuarios a menudo revela patrones que las métricas estadÃsticas por sà solas no podrÃan captar, como la fatiga por alertas, las interrupciones del flujo de trabajo o las diferencias sistemáticas en la forma en que los distintos equipos de atención interactúan con la misma herramienta.
Realidades prácticas: desarrollo de la capacidad de monitoreo de IA
Las organizaciones deberÃan estratificar la intensidad de la monitorización según el riesgo. Un modelo clÃnico que influye en las decisiones de tratamiento para pacientes con enfermedades agudas requiere una monitorización mucho más rigurosa que una herramienta administrativa que facilita la programación de citas. Muchas organizaciones están empezando a clasificar sus herramientas de IA en niveles de riesgo, y los modelos de mayor riesgo reciben una monitorización más intensiva, indicadores clave de rendimiento definidos y ciclos de revisión más frecuentes.
Una monitorización eficaz también requiere responsabilidad interdisciplinaria. La monitorización debe ir más allá del tiempo de actividad técnica e incluir la relevancia clÃnica, las desviaciones del rendimiento y las consecuencias imprevistas. Algunas organizaciones asignan la responsabilidad compartida de cada modelo implementado a un trÃo de partes interesadas: un responsable clÃnico que comprende el contexto asistencial, un cientÃfico de datos que puede interpretar el rendimiento del modelo y un profesional de TI que gestiona la infraestructura técnica.
Finalmente, las organizaciones deben ser realistas respecto a los recursos necesarios. Evaluar los modelos de IA para resultados clÃnicos como la mortalidad o los reingresos requiere mucho tiempo, integración de datos y experiencia analÃtica. Un monitoreo significativo requiere muchos recursos, y la mayorÃa de los sistemas de salud aún no cuentan con el personal ni la financiación necesarios para llevarlo a cabo de forma integral. El acceso a expertos en ciencia de datos, ya sea personal interno, colaboraciones académicas o consultores externos de confianza, es esencial para interpretar el rendimiento de los modelos y traducir los hallazgos estadÃsticos en información práctica para los lÃderes clÃnicos y operativos.
Reconociendo las limitaciones actuales
La infraestructura para monitorear continuamente el rendimiento del modelo, segmentar los resultados por subgrupos de pacientes y detectar desviaciones del rendimiento a medida que ocurren aún no existe como herramienta estándar. La mayorÃa de las organizaciones recurren a auditorÃas manuales y revisiones periódicas en lugar de paneles de control automatizados. Esta realidad no justifica abandonar el monitoreo; sà justifica ser explÃcitos sobre lo que las organizaciones pueden requerir razonablemente dadas las capacidades actuales. Como mÃnimo, los sistemas de salud deberÃan exigir un monitoreo con una frecuencia definida, especificar qué métricas deben reportarse y en qué formato, y establecer umbrales que den lugar a una reevaluación formal sobre si una herramienta debe seguir utilizándose.
Los enfoques de monitorización para la IA generativa siguen siendo un área de investigación activa. A diferencia de los modelos tradicionales de aprendizaje automático que generan predicciones numéricas, la IA generativa produce texto cuya precisión, integridad, tono y seguridad deben evaluarse. Las métricas y los marcos de monitorización estándar no se adaptan fácilmente a esta nueva categorÃa de herramientas. Las estrategias iniciales pueden incluir la revisión estructurada por parte de profesionales clÃnicos, mecanismos de retroalimentación cualitativa y métodos emergentes de evaluación del lenguaje natural, pero las mejores prácticas aún están tomando forma.
Por ahora, el requisito clave es que los equipos que implementan herramientas de IA generativa definan claramente cómo monitorearán el desempeño, en lugar de garantÃas vagas de que se realizará el monitoreo.
Mirando hacia el futuro
Desarrollar una monitorización eficaz de la IA es un proceso continuo que ninguna organización puede afrontar sola. Los marcos y la infraestructura necesarios aún están en desarrollo, y los sistemas de salud aprenden junto con la propia tecnologÃa. Pero la idea central del Acelerador de IA de Leadership Alliance es clara: la gobernanza sin monitorización es un marco sin visión. Aprobar una herramienta de IA para su implementación es solo el principio. Las organizaciones que tengan éxito con la IA en la atención clÃnica serán aquellas que se pregunten no solo "¿Aprobamos esta herramienta?", sino "¿Cómo sabemos que sigue funcionando?".
Para obtener más información sobre la Âé¶¹Ó³» Leadership Alliance y las oportunidades de participar en futuros Aceleradores de IA, visite nuestro sitio web.
Lucas Zier, MD, MS es el Director de Rendimiento y Resultados Cardiovasculares del Zuckerberg San Francisco General y cofundador de PROSPECT Lab.
Amy Weckman, MSN, APRN-CNP, CPHQ, CPPS, es directora de Âé¶¹Ó³» .
Natalie MartÃnez, MPH, es Gerente de Proyectos del Âé¶¹Ó³» .
Foto de Freepik
También te puede interesar: