Alerta en OpenAI: los flamantes modelos o3 y o4-mini de ChatGPT alucinan más que sus predecesores
Alerta en OpenAI: los flamantes modelos o3 y o4-mini alucinan más que sus predecesores
Los nuevos modelos de razonamiento o3 y o4-mini de OpenAI ofrecen más resultados con alucinaciones que los modelos de razonamiento anteriores de la compañía , con prácticamente el doble de la tasa de alucinaciones registradas en el modelo o1, según pruebas internas de la evaluación PersonQA
Alerta en OpenAI: los flamantes modelos o3 y o4-mini alucinan más que sus predecesores
Los nuevos modelos de razonamiento o3 y o4-mini de OpenAI ofrecen más resultados con alucinaciones que los modelos de razonamiento anteriores de la compañía , con prácticamente el doble de la tasa de alucinaciones registradas en el modelo o1, según pruebas internas de la evaluación PersonQA .
La tecnológica presentó su nueva familia de modelos de la serie o, centrada en el razonamiento , la semana pasada, concretamente, con los modelos o3 y o4-mini, que están diseñados para programar, navegar por la web y generar imágenes de manera autónoma, incluso, con capacidad para "pensar con imágenes".
A pesar de las novedades que integran los últimos modelos de OpenAI, se han encontrado problemas relacionados con alucinaciones en sus resultados , esto es, una cuestión que sufren algunos modelos de Inteligencia Artificial (IA) y que se basa en ofrecer resultados que, a pesar de presentarse de manera coherente, incluyen información incorrecta, sesgada, errónea o, incluso, inventada .
En concreto, los nuevos modelos de razonamiento o3 y o4-mini, alucinan con más frecuencia que los modelos de razonamiento presentados anteriormente por OpenAI, como es el caso de los modelos o1, o1-mini y o3-mini, incluidos otros modelos anteriores como GPT-4o.
Así lo ha señalado OpenAI, en base a los resultados obtenidos en sus pruebas internas sobre alucinaciones, con la evaluación PersonQA, un sistema que pone a prueba los modelos midiendo la precisión de los intentos de respuesta . Tal y como lo ha explicado en el informe técnico, PersonQA valora la precisión, es decir, si el modelo responde correctamente a la pregunta, y la tasa de alucinaciones, la frecuencia con la que el modelo alucina en sus respuestas.
En este sentido, el modelo o4-mini obtuvo peores resultados que los modelos o1 y o3 en las alucinaciones , aunque OpenAI ha señalado que "era de esperar" porque los modelos más pequeños "tienen más conocimientos del mundo y tienden a alucinar más".
Asimismo, los resultados de PersonQA también han reflejado algunas "diferencias de rendimiento" al comparar o1 y o3, subrayando que o3 tiende a hacer más afirmaciones en general, lo que lleva a afirmaciones más precisas, así como afirmaciones "más inexactas o alucinadas".
Alucinó en un tercio de las consultas
Según los resultados mostrados, o3 alucinó al responder el 33 por ciento de las preguntas realizadas por la evaluación PersonQA . Esto equivale a prácticamente el doble de la tasa de alucinaciones del modelo o1 de OpenAI. Por su parte, o4-mini, obtuvo un resultado del 48 por ciento en la tasa de alucinaciones.
A pesar de estas conclusiones en las pruebas, OpenAI ha afirmado que, por el momento, continuarán investigando para "comprender la causa de este resultado", y porqué las alucinaciones han aumentado con concretamente con los modelos de razonamiento.
Igualmente, según ha detallado el portavoz de OpenAI, Niko Felix, en declaraciones a TechCrunch , abordar las alucinaciones en todos los modelos de OpenAI "es un área de investigación continua", en la que trabajan para mejorar la precisión y confiabilidad.