Em estudo de Harvard, IA ofereceu diagnósticos de sala de emergência mais precisos do que dois médicos humanos

Em estudo de Harvard, IA ofereceu diagnósticos de sala de emergência mais precisos do que dois médicos humanos

Um novo estudo examina como os grandes modelos de linguagem surgem em uma variedade de contextos médicos, incluindo casos reais de sala de emergência — onde pelo menos um modelo pareceu ser mais preciso do que os médicos humanos.

O estudo foi publicado esta semana na Science e vem de uma equipe de pesquisa desenvolvida por médicos e cientistas da computação da Harvard Medical School e do Beth Israel Deaconess Medical Center. Os pesquisadores disseram que realizaram uma variedade de experimentos para medir como os modelos da OpenAI se compararam com médicos humanos.

Em um experimento, os pesquisadores se concentraram em 76 pacientes que chegaram à sala de emergência do Beth Israel, comparando os diagnósticos oferecidos por dois médicos assistentes de clínica médica com aqueles gerados pelos modelos o1 e 4o da OpenAI. Esses diagnósticos foram avaliados por outros dois médicos assistentes, que não sabiam quais vieram de humanos e quais vieram de IA.

“Em cada ponto de contato diagnóstico, o1 teve um desempenho nominalmente melhor ou igual aos dois médicos assistentes e ao 4o”, disse o estudo, acrescentando que as diferenças “foram especialmente pronunciadas no primeiro ponto de contato diagnóstico (triagem inicial de emergência), onde há menos informações disponíveis sobre o paciente e a maior urgência para tomar a decisão correta.”

Não comunicado de imprensa da Harvard Medical School sobre o estudo, os pesquisadores enfatizaram que não “pré-processaram os dados de forma alguma” — os modelos de IA foram apresentados com as mesmas informações que estavam disponíveis nos registros médicos eletrônicos no momento de cada diagnóstico.

Com essas informações, o modelo o1 conseguiu oferecer “o diagnóstico exato ou muito próximo” em 67% dos casos de triagem, em comparação com um médico que teve o diagnóstico exato ou próximo em 55% das vezes, e com o outro que acertou em 50% das vezes.

“Testamos o modelo de IA contra virtualmente todos os benchmarks, e ele superou tanto os modelos anteriores quanto nossas linhas de base de médicos”, disse Arjun Manrai, que chefia um laboratório de IA na Harvard Medical School e é um dos autores principais do estudo, no comunicado de imprensa.

Para ser claro, o estudo não afirmou que a IA está pronta para tomar decisões de vida ou morte real na sala de emergência. Em vez disso, disse que os resultados mostram uma “necessidade urgente de ensaios prospectivos para avaliar essas tecnologias em cenários de atendimento ao paciente no mundo real.”

Os pesquisadores também observaram que estudaram apenas o desempenho dos modelos quando fornecidos com informações baseadas no texto, e que “estudos existentes sugerem que os modelos de fundação atuais são mais limitados no raciocínio sobre entradas não textuais.”

Adam Rodman, um médico do Beth Israel que também é um dos autores principais do estudo, alertou o Guardião que “não há um quadro formal de responsabilidade” em torno de diagnósticos de IA, e que os pacientes ainda “querem que humanos os guiem em decisões de vida ou morte [e] os guiem em decisões de tratamento.

Em um post sobre o estudoKristen Panthagani, uma médica de emergência, disse que este é um “estudo de IA interessante que levou a manchetes muito exageradas”, especialmente porque estava comparando diagnósticos de IA com os de médicos de clínica médica, e não com os de médicos de emergência.

“Se vamos comparar ferramentas de IA com a capacidade clínica de médicos, devemos começar comparando com médicos que realmente praticam essa especialidade”, disse Panthagani. “Não ficaria surpresa se um LLM pudesse vencer um dermatologista em um exame de conselho de neurocirurgia, [mas] isso não é algo particularmente útil de saber.”

Ela também argumentou: “Como médica de emergência vende um paciente pela primeira vez, meu objetivo principal não é adivinhar seu diagnóstico final. Meu objetivo principal é determinar se você tem uma condição que pode te matar.”

Este post e título foram atualizados para refletir o fato de que os diagnósticos no estudo foram feitos por médicos assistentes de clínica e para incluir comentários de Kristen Panthagani.

Fonte: Techcrunch