Por Canuto  

Los nuevos modelos de inteligencia artificial de OpenAI, o3 y o4-mini, muestran indicadores alarmantes de mayores tasas de ‘alucinaciones’ respecto a sus predecesores, desatando interrogantes sobre la fiabilidad y precisión de los sistemas avanzados de IA en tareas críticas.
***

  • OpenAI admite que sus modelos de IA de razonamiento o3 y o4-mini alucinan más que las versiones anteriores, según pruebas internas y externas.
  • Las ‘alucinaciones’ dificultan la adopción de IA en sectores que requieren alta precisión, como el legal o el financiero.
  • La empresa explora integrar capacidades de búsqueda web y nuevas estrategias de entrenamiento para reducir errores, aunque aún no comprenden completamente el incremento de alucinaciones.

Alerta por el aumento de alucinaciones en IA de OpenAI

OpenAI, líder en el desarrollo de inteligencia artificial, lanzó recientemente sus modelos de razonamiento o3 y o4-mini. A pesar de prometer nuevos avances, estas versiones han generado inquietud al mostrar una tendencia mayor a “alucinar” o inventar información, según un informe técnico citado por TechCrunch.

Las alucinaciones han sido un reto histórico en el campo de la IA. Se trata de errores donde el modelo presenta información ficticia como si fuera verídica. Aunque cada nueva iteración solía traer mejoras, la tendencia se revierte con estos nuevos desarrollos: tanto o3 como o4-mini presentan tasas de errores más elevadas en comparación con modelos previos, como o1, o1-mini y o3-mini, así como con soluciones tradicionales como GPT-4o.

Cifras preocupantes: las pruebas internas y externas confirman el problema

Según los datos publicados por OpenAI y recogidos por TechCrunch, el modelo o3 incurrió en alucinaciones en el 33% de las preguntas del test PersonQA, una evaluación interna enfocada en medir la precisión del conocimiento sobre personas. Para efectos comparativos, los modelos anteriores o1 y o3-mini mostraron tasas respectivas del 16% y 14,8%.

El modelo o4-mini incluso superó esas cifras, fallando en un inquietante 48% de los casos evaluados bajo el mismo estándar. Estas estadísticas duplican o hasta triplican los niveles de error de modelos anteriores, lo que representa un desafío serio para su adopción en ámbitos donde la precisión es crítica.

Por su parte, laboratorios externos como Transluce han detectado tendencias similares. Encontraron que el modelo o3 llegaba a inventar detalles sobre supuestas acciones realizadas, como afirmar haber ejecutado código fuera de ChatGPT en un MacBook Pro de 2021, lo cual es técnicamente imposible para la IA.

Expertos debaten sobre las causas y las posibles soluciones

La propia OpenAI reconoce no comprender por completo el motivo del incremento de alucinaciones. En su documentación técnica afirman que “se necesita más investigación” para entender por qué la ampliación de modelos de razonamiento puede contribuir a mayor generación de errores.

Las primeras hipótesis apuntan a cómo se estructura el aprendizaje por refuerzo utilizado para los modelos de la serie o. Al respecto, Neil Chowdhury, investigador de Transluce y ex OpenAI, sostiene que este método podría amplificar problemas que se suelen mitigar parcialmente con técnicas clásicas de post-procesamiento.

En paralelo, Sarah Schwettmann, cofundadora de Transluce, advierte que la elevada tasa de alucinaciones en o3 reduce su utilidad real para diversas aplicaciones. Kian Katanforoosh, profesor de Stanford y CEO de Workera, admitió a TechCrunch que el modelo es prometedor en flujos de trabajo de programación, pero tiende a proporcionar enlaces rotos, complicando tareas que requieren verificación de fuentes externas.

Implicaciones para sectores críticos y estrategias alternativas

El aumento de ‘alucinaciones’ en IA puede limitar significativamente su implementación en sectores como el jurídico, financiero o médico, donde los errores pueden acarrear consecuencias graves. Si bien la creatividad resultante de estas desviaciones permite generar ideas novedosas, en contextos donde la exactitud es innegociable, cualquier falla erosiona la confianza.

Para atacar el problema, OpenAI está explorando la integración de capacidades de búsqueda web en sus modelos. Por ejemplo, la versión GPT-4o con función de búsqueda en línea ha alcanzado un 90% de precisión en pruebas SimpleQA. Se espera que, al permitir la verificación directa de información externa, las tasas de alucinación disminuyan, aunque esto dependerá de la disposición de los usuarios a interactuar con motores de búsqueda externos.

Niko Felix, portavoz de OpenAI, afirma que “abordar las alucinaciones en todos nuestros modelos es un área de investigación continua y seguimos trabajando para mejorar su precisión y fiabilidad”.

Nueva tendencia en IA: el razonamiento y su paradoja

En el último año, la industria de la inteligencia artificial se ha volcado hacia el desarrollo de modelos de razonamiento. Este enfoque, que busca mejorar el desempeño en tareas complejas sin multiplicar los costos de computación y datos, promete avanzar más allá de las capacidades de los modelos tradicionales.

Sin embargo, según lo que reflejan o3 y o4-mini, fortalecer el razonamiento puede tener el efecto secundario de amplificar las ‘alucinaciones’. El desafío ahora es encontrar un equilibrio entre capacidades avanzadas y fiabilidad, especialmente antes de implementar sistemas inteligentes en contextos dominados por regulaciones estrictas o repercusiones legales.

El debate está servido y la carrera por una inteligencia artificial verdaderamente confiable continúa, mientras empresas, investigadores y usuarios observan con atención los próximos pasos de OpenAI y sus rivales en el sector.


Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín