IA falha em 51% das emergências: o que isso ensina para clínicas

Um estudo da Escola de Medicina Icahn no Monte Sinai, publicado na Nature Medicine em fevereiro de 2026, testou o ChatGPT Health em quase mil cenários de triagem médica. Em 51,6% dos casos de emergência real, a ferramenta recomendou um nível de cuidado menor do que o necessário — sugerindo espera de 24 a 48 horas quando o paciente deveria ir ao pronto-socorro imediatamente. Em um cenário de asfixia, a IA encaminhou para consulta futura em 80% das vezes. O estudo não é contra a IA na saúde. É um lembrete brutal de onde ela deve e não deve atuar.

O que o estudo mostrou

Os pesquisadores criaram 60 cenários clínicos realistas em 21 especialidades, variando raça, gênero e dados de exames. Três médicos independentes avaliaram as respostas. O padrão que emergiu é preocupante: a IA acerta casos de gravidade média em mais de 90% das vezes, gerando falsa confiança, mas falha justamente nos casos mais críticos. Alertas de suicídio aparecem de forma inconsistente — às vezes em cenários de baixo risco, falhando quando o usuário descreve planos específicos de automutilação.

O estudo também identificou viés racial: em cetoacidose diabética, a ferramenta recomendou “monitorar em casa” para pacientes negros e “ir ao pronto-socorro” para brancos na mesma situação. Quando parentes minimizavam os sintomas nas perguntas, as recomendações se deslocavam para cuidados menos urgentes. O ChatGPT Health foi lançado em janeiro de 2026 e já tinha 40 milhões de usuários diários no momento do estudo.

Por que isso importa para clínicas e consultórios

O médico ou gestor de clínica que lê essa notícia pode pensar: “E daí? Eu não uso ChatGPT para triagem.” O ponto é outro. O estudo ilustra com dados o que a Resolução CFM 2.454/2026 já classificou em fevereiro: há uma diferença estrutural entre ferramentas de IA. No baixo risco estão funções administrativas — agendamento, confirmação, lembretes, reagendamento. No alto risco estão sistemas que tomam ou influenciam decisões clínicas, diagnósticas ou terapêuticas.

O ChatGPT Health foi desenhado para triagem. Triagem é decisão clínica. Quando a IA erra, o custo pode ser a vida do paciente. Quando uma ferramenta de confirmação de consulta erra, o custo é um horário vazio ou uma mensagem mal formatada. A escala de consequência não é comparável. Por isso a resolução do CFM veda que a IA comunique diagnósticos ou condutas diretamente ao paciente — e exige supervisão humana constante em sistemas de médio e alto risco. Já explicamos aqui no blog como a resolução classifica ferramentas de agendamento como baixo risco.

Onde a IA administrativa se encaixa

Ferramentas que automatizam agendamento, confirmação e reagendamento via WhatsApp não tomam decisões clínicas. Elas executam fluxos definidos: o paciente pede para remarcar, o sistema consulta a agenda, oferece opções, confirma e atualiza. O recepcionista ou o médico entra quando a situação escapa do padrão. Esse tipo de automação está explicitamente no baixo risco na classificação do CFM — e o estudo do Monte Sinai reforça por que essa distinção existe.

Segundo dados internos da Simplafy, que oferece esse tipo de automação para clínicas, a redução de faltas pode chegar a 67% quando o fluxo é bem configurado. O dado vem de casos como o Grupo Ana Rosa/Cloudia em 2024. Nenhum desses sistemas decide se um paciente deve ou não ir ao pronto-socorro. Eles apenas garantem que quem tem consulta agendada seja lembrado, confirme ou remarque com facilidade.

O que o estudo não diz

O estudo não conclui que IA em saúde é ruim. Conclui que IA em triagem e decisão clínica, sem supervisão adequada, é perigosa. A recomendação implícita é clara: use IA onde o erro tem consequências limitadas e onde a supervisão humana é natural — como em tarefas administrativas. Evite depender de IA onde o erro pode ser fatal e onde a supervisão é difícil de garantir — como em triagem de emergência ou diagnóstico.

Para o gestor de clínica que está avaliando ferramentas: pergunte em qual categoria a solução se encaixa. Se a resposta for “apoiamos em decisões clínicas” ou “fazemos triagem”, exija evidências de validação e supervisão. Se a resposta for “automatizamos agendamento e confirmação”, você está no território de baixo risco — o mesmo que o CFM e estudos como o do Monte Sinai ajudam a delimitar.

O timing é favorável

A resolução do CFM entra em vigor em 180 dias (agosto de 2026). O estudo do Monte Sinai sai em fevereiro. O mercado de IA em saúde está em ebulição, com grandes players lançando ferramentas e governos definindo regras. A mensagem que emerge é consistente: a IA é ferramenta poderosa quando usada no lugar certo. O lugar certo, para a maioria das clínicas, não é triagem nem diagnóstico — é a recepção.

Quer ver como funciona na sua clínica? Teste grátis por 10 dias em simplafy.com.br/saude — sem cartão de crédito.

Referências utilizadas para produzir este conteúdo:

ChatGPT Health performance in triage — Nature Medicine (2026)
Research Identifies Blind Spots in AI Medical Triage — Mount Sinai
IA pode falhar em mais da metade das emergências médicas — G1
Resolução CFM nº 2.454/2026 — DOU
CFM classifica agendamento por IA como baixo risco — Blog Simplafy
Paciente pode recusar IA no atendimento — Blog Simplafy