MED-PaLM2 y ChatGPT: complemento para mejorar el diagnóstico y razonamiento clínico
Basado en el artículo: Toward expert-level medical question answering with large language models. Nature Medicine. Publicado online:8 de enero de 2025 (acceso al artículo en referencia 1)
La Inteligencia Artificial (IA) ha revolucionado la rapidez de computación, pero sobre todo su desarrollo ha dado lugar a la posibilidad de «hablar» en tiempo real con una máquina, que además tiene algoritmos que lo hacen casi humanizado, con sus preguntas alternativas, o el simple hecho de dar las gracias. Además la posibilidad de acceso a información casi infinita, ayuda a otra limitación humana como es la memoria.
Por supuesto estos sistemas no son perfectos, al final deben acudir a información presente en las redes, con la posibilidad de sesgos, sobre todo cuando determinados procesos o incluso grupos sociales están infrarepresentados.
IA y Diagnóstico Clínico
La patología humana es amplia, sin embargo muchos procesos diferentes se presentan con signos y síntomas comunes, y todo ello conlleva un grado de incertidumbre durante el proceso de diagnóstico. La mente humana es capaz de establecer relaciones casuales, y esto, por el momento, es algo que los modelos de IA no pueden hacer.
Uno de los problemas de la mente del médico a la hora de establecer un posible diagnóstico, guarda relación con el contexto donde ese profesional realiza su acción, su experiencia, pero sobre todo también la memoria que es limitada para el cerebro humano. Este aspecto de la memoria puede ser ampliamente cubierto por los modelos de IA, pero no sólo esto. El desarrollo de la IA también puede impactar como un control de calidad, ya que el programa informático puede servir como interlocutor para ayudar a aumentar la seguridad de la decisión a tomar, estableciendo preguntas al usuario del programa como forma de reducir la posible incertidumbre.
¿Qué herramientas de IA tenemos realmente?
Es bien sabido que el diagnóstico radiológico está incorporando herramientas de IA que pueden ser capaces de superar al ojo humano, por ejemplo en la lectura de mamografías, o en la interpretación de muestras de biopsia, tanto como en el papel ya demostrado de su capacidad de reconocer retinopatía diabética de forma precoz. Pero aquí nos queremos centrar en el médico clínico, que maneja pacientes en urgencias o en planta de hospitalización. ¿Qué tenemos hasta ahora? Pues de momento la triunfadora es ChatGPT, desarrollada por OpenAI, en su versión más actual ChatGPT-4. Es la aplicación más usada, con posibilidad de uso libre, pero ya ha instaurado versión de pago.
Por otra parte la compañía Google (Google Deep Mind), ha desarrollado MED-PaLM2, también orientada al diagnóstico médico y diagnóstico diferencial, pero aún tiene un uso privado experimental. Hay otras aplicaciones en curso, pero queremos centrarnos en estas dos.
¿Qué aplicación es más útil para el diagnóstico?
Es difícil contestar con claridad a esta pregunta, ya que muchos de los artículos publicados son difíciles y complejos de analizar.
De momento podemos decir que la «ganadora» es ChatGPT, porque es usada ampliamente, mientras que MED-PaLM2 aún no es de uso libre, pero podemos adelantar o tener opinión al respecto.
La mayoría de las aplicaciones de IA han sido probadas con bancos de preguntas multirespuestas, y así, en general, la precisión de ChatGPT es mayor del 90% en el examen de Medicina Americano(USMLE), mientras que MED-PaLM2, está alredeor del 86%.
ChatGPT suele dar más explicaciones cuando hace un diagnóstico diferencial, mientras MED-PaLM2 contesta más como tipo escueto. Esta aplicación ha sido entrenada con guías clínicas, UpToDate y PubMed. En un artículo publicado sobre esta aplicación (1), tanto los médicos generalistas como los especialistas, valoraban las respuestas del programa tan seguras como las de los médicos.
Conclusiones
Las herramientas de ayuda al diagnóstico no son algo nuevo. Las herramientas de decisión como el programa IsabelHealthCare, bien conocido en el mundo anglosajón, producía listados de posibilidades diagnósticas pero no introducía probabilidad, además el banco de datos era limitado, sin embargo el diagnóstico final, cuando se comparaba con clínicos, solía estar en el listado, y tanto clínicos como la herramienta tenían una precisión diagnóstica al inicio del proceso de diagnóstico del 60% (2). Las nuevas aplicaciones de IA tienen ventaja sobre las herramientas previas, en el sentido de que el acceso a banco de datos es enorme, «aprenden» con su uso y permiten una «conversación» para llegar a depurar el diagnóstico final.
Hasta el momento no se ha demostrado una clara ventaja de las aplicaciones de IA para el diagnóstico, en relación a médicos especialistas en su tema, y generalmente las cifras de precisión para ambos están en el rango del 60-65% al inicio del proceso diagnóstico, una vez comparado con el diagnóstico final.
No sabemos realmente cuantos profesionales de Medicina o Enfermería están ya utilizando estas herramientas para el diagnóstico, pero sin duda van a ser una revolución para ayudar a recuperar datos de la memoria, para entrenarse uno mismo en razonamiento clínico, y para mejorar la seguridad tanto del paciente como del o de la profesional.
Autor: Lorenzo Alonso Carrión
FORO OSLER