Novos modelos do chatgpt ‘alucinam’ mais que antecessores

O Globo, Brasil 23 de abril de 2025

Testes internos realizados pelo PersonQA, sistema de avaliação desenvolvido pela OpenAI, mostram ...

Testes internos realizados pelo PersonQA, sistema de avaliação desenvolvido pela OpenAI, mostram que os novos modelos do ChatGPT, o3 e o4-mini, geram mais respostas com "alucinações" do que seus antecessores.
O termo refere-se a informações incorretas, inventadas ou distorcidas apresentadas pelos modelos de inteligência artificial (IA) " e que parecem convincentes. Segundo os dados, a taxa de alucinações nesses modelos chega a ser quase o dobro da registrada no o1.
A empresa apresentou sua nova "família" da série "o", focada em raciocínio, na semana passada. Os modelos o3 e o4-mini foram projetados para programar, navegar na web e gerar imagens de forma autônoma, tendo inclusive capacidade para "pensar com imagens".
Alucinação de até 48%
Esses modelos, no entanto, apresentaram problemas relacionados a alucinações em seus resultados. Isso é algo comum em alguns modelos de IA " e consiste em fornecer respostas aparentemente coerentes, mas que incluem informações incorretas, tendenciosas, erradas ou até mesmo inventadas.
No caso, os modelos o3 e o4-mini "alucinam" com mais frequência que os modelos lançados anteriormente pela OpenAI, como o1, o1-mini e o3-mini, além do GPT-4o.
Essa conclusão foi divulgada pela OpenAI com base em testes internos sobre alucinações, usando a avaliação PersonQA " um sistema que testa os modelos medindo a precisão de suas tentativas de resposta.
Conforme explicado no relatório técnico, o PersonQA avalia o critério de precisão, ou seja, se o modelo responde corretamente à pergunta; e o de taxa de alucinações, que aponta a frequência com que o modelo inventa informações em suas respostas.
Nesse sentido, o o4-mini teve desempenho pior que o1 e o3 em termos de alucinações, embora a OpenAI tenha afirmado que isso "era esperado", pois modelos menores "têm mais conhecimento do mundo e tendem a alucinar mais".
Além disso, os resultados do PersonQA também revelaram algumas diferenças de desempenho entre o1 e o3, destacando que o o3 tende a fazer mais afirmações no geral " o que leva tanto a respostas mais precisas quanto a afirmações mais imprecisas ou "alucinadas".
Segundo os resultados, o o3 alucinou em 33% das perguntas feitas pela avaliação PersonQA, praticamente o dobro da taxa de alucinações do modelo o1. Já o o4-mini registrou uma taxa de alucinações de 48%.
Apesar desses resultados, a OpenAI afirmou que continuará investigando para "entender a causa desse problema" e descobrir por que as alucinações aumentaram especificamente nesses modelos de raciocínio.
Além disso, explicou o porta-voz da OpenAI, Niko Felix, ao site TechCrunch, combater as alucinações em todos os modelos da empresa "é uma área de pesquisa contínua", na qual trabalham para melhorar a precisão e a confiabilidade.
*O La Nación faz parte do Grupo de Diarios América (GDA)