MED-PaLM2 e ChatGPT: complemento para melhorar o diagnóstico e o raciocínio clínico

Baseado no artigo: Toward expert-level medical question answering with large language models. Nature Medicine. Publicado online: 8 de janeiro de 2025 (acesso ao artigo na referência 1)

A Inteligência Artificial (IA) revolucionou a velocidade da computação, mas sobretudo o seu desenvolvimento deu origem à possibilidade de “falar” em tempo real com uma máquina, que também dispõe de algoritmos que a tornam quase humanizada, com as suas perguntas alternativas, ou o simples ato de dizer obrigado. Para além disso, a possibilidade de acesso a informação quase infinita ajuda outra limitação humana, como a memória.

Claro que esses sistemas não são perfeitos, afinal precisam recorrer a informações presentes nas redes, com a possibilidade de vieses, principalmente quando determinados processos ou mesmo grupos sociais estão sub-representados.

IA e diagnóstico clínico

A patologia humana é vasta, mas muitos processos diferentes apresentam sinais e sintomas comuns, o que leva a um grau de incerteza durante o processo de diagnóstico. A mente humana é capaz de estabelecer relações casuais, o que, de momento, é algo que os modelos de IA não conseguem fazer.

Um dos problemas da mente do médico quando se trata de estabelecer um possível diagnóstico está relacionado com o contexto em que esse profissional realiza a sua ação, a sua experiência, mas acima de tudo também a memória que é limitada para o cérebro humano. Este aspeto da memória pode ser amplamente coberto por modelos de IA, mas não só. O desenvolvimento da IA pode também ter impacto como controlo de qualidade, uma vez que o software pode servir de interlocutor para ajudar a aumentar a certeza da decisão a tomar, colocando questões ao utilizador do software como forma de reduzir possíveis incertezas.

De que ferramentas de IA dispomos realmente?

É sabido que o diagnóstico radiológico está a incorporar ferramentas de IA que podem ser capazes de superar o olho humano, por exemplo, na leitura de mamografias, ou na interpretação de amostras de biópsia, bem como no papel já comprovado da sua capacidade de reconhecer precocemente a retinopatia diabética. Mas aqui queremos centrar-nos no clínico, que lida com os doentes no serviço de urgência ou na enfermaria. O que é que temos até agora? Até agora, o vencedor é o ChatGPT, desenvolvido pela OpenAI, na sua versão mais recente ChatGPT-4. É a aplicação mais utilizada, com a possibilidade de utilização gratuita, mas já introduziu uma versão paga.

 

Por outro lado, a empresa Google (Google Deep Mind), desenvolveu o MED-PaLM2, também orientado para o diagnóstico médico e o diagnóstico diferencial, mas ainda para uso experimental privado. Existem outras aplicações em curso, mas queremos concentrar-nos nestas duas.

Que aplicação é mais útil para o diagnóstico?

É difícil responder claramente a esta pergunta, uma vez que muitos dos trabalhos publicados são difíceis e complexos de analisar.

De momento, podemos dizer que o “vencedor” é o ChatGPT porque é amplamente utilizado, enquanto o MED-PaLM2 ainda não é de utilização livre, mas podemos avançar ou ter uma opinião sobre ele.

A maioria das aplicações de IA foi testada com bancos de perguntas com várias respostas, pelo que, em geral, a precisão do ChatGPT é superior a 90% no exame USMLE (United States Medical Licensing Examination), enquanto o MED-PaLM2 ronda os 86%.

O ChatGPT tende a dar mais explicações quando faz um diagnóstico diferencial, enquanto o MED-PaLM2 responde mais como um tipo conciso. Esta aplicação foi treinada com diretrizes clínicas, UpToDate e PubMed. Num artigo publicado sobre esta aplicação (1), tanto os médicos de clínica geral como os especialistas classificaram as respostas do programa como tão fiáveis como as dos médicos.

Conclusões

Os auxiliares de diagnóstico não são novos. As ferramentas de decisão, como o programa IsabelHealthCare, bem conhecido no mundo anglo-saxónico, produziam listas de possibilidades de diagnóstico, mas não introduziam probabilidades, e a base de dados era limitada, mas o diagnóstico final, quando comparado com o dos clínicos, era geralmente listado, e tanto os clínicos como a ferramenta tinham uma precisão de diagnóstico no início do processo de diagnóstico de 60% (2). As novas aplicações de IA têm uma vantagem sobre as ferramentas anteriores, na medida em que o acesso ao banco de dados é enorme, “aprendem” com a utilização e permitem uma “conversa” para aperfeiçoar o diagnóstico final.

Até agora, não foi demonstrada qualquer vantagem clara das aplicações de IA para o diagnóstico em relação aos médicos especialistas na sua área e, geralmente, os valores de precisão para ambos situam-se na ordem dos 60-65% no início do processo de diagnóstico, em comparação com o diagnóstico final.

Não sabemos realmente quantos profissionais médicos ou de enfermagem já estão a utilizar estas ferramentas para o diagnóstico, mas elas serão, sem dúvida, uma revolução para ajudar a recuperar dados da memória, para treinar o raciocínio clínico e para melhorar a segurança tanto do paciente como do profissional.

Autor: Lorenzo Alonso Carrión

FORO  OSLER

 

Compartir:
Share