Mientras un estudio pone en evidencia que ChatGPT ha venido perdiendo facultades tras cada actualización, otras investigaciones encontraron que el chatbot es más útil y preciso en tareas médicas que de programación.
***
- Un estudio encontró diferencias sustanciales entre GPT-3.5 y GPT-4
- La versión posterior es menos precisa que su antecesora a la hora de dar respuestas
- En tareas de programación, ChatGPT mostró un rendimiento por debajo del 50%
- Pero en preguntas médicas, tuvo una tasa de éxito del 73%
- El grado de acierto de ChatGPT depende principalmente del contenido disponible del cual se basa
Desde su llegada al mercado, ChatGPT de OpenAI figura como uno de los chatbots de inteligencia artificial (IA) más utilizados hoy día. La compañía responsable lanza actualizaciones con frecuencia para optimizar su funcionamiento, pero ante la proliferación de otros productos similares con distintas propiedades, ciertos usuarios ya alertan que comience a quedarse corto frente a lo que otros modelos de leguaje avanzados ofrecen.
Así lo ponen en evidencia ciertos estudios realizados por varias universidades, los cuales cuestionan las habilidades generales de ChatGPT tras la implementación de la versión GPT-4, así como su destreza para el desarrollo de ciertas solicitudes en áreas de conocimiento particulares.
¿ChatGPT se está haciendo más tonto?
Partiendo primero desde una visión más general, un estudio realizado por científicos de la Universidad de Standford, citado por el medio Futurism, apunta a que ChatGPT podría estarse volviendo “más tonto” tras las nuevas actualizaciones, esto dado que existen diferencias importantes entre el desempeño de GPT-3.5 y GPT-4, encontrando menos precisión en las respuestas que arroja la versión más reciente.
La evaluación hecha por los científicos contempló varios aspectos entre ambas versiones, como por ejemplo su pericia para realizar cálculos matemáticos, análisis ante determinadas solicitudes, y su capacidad para generar código aplicable al desarrollo de software. Aparentemente la versión con GPT-3.5 tiene una mayor precisión y éxito que la posterior, lo que da la impresión que el chatbot ha perdido facultades en lugar de optimizarse.
Según indica el reporte, esta misma impresión la han tenido muchos usuarios que usan al chatbot, los cuales alegan que tanto GPT-3.5 como GPT-4 han venido cambiado significativamente su comportamiento, resultando menos precisos y con respuestas carentes de la calidad vista en versiones previas.
La expectativa es mejorarlo
Frente a estos señalamientos, el vicepresidente de producto de OpenAI, Peter Welinder, rechazó la tesis de que las versiones posteriores de GPT sean “menos inteligentes”, alegando que la expectativa es que supere a sus predecesoras.
Al respecto, Welinder aclaró que los cambios en la experiencia de los usuarios “podrían deberse al uso continuo”, especificando que probablemente “cuando usas [ChatGPT] más intensamente, comienzas a notar problemas que no veías antes”.
Mejor doctor que programador
Pero dejando atrás los debates sobre la inteligencia global de ChatGPT, otro de los aspectos que generó cierto interés entre los interesados es la pericia del chatbot para atender solicitudes en determinadas áreas de conocimiento. Bajo esta premisa, dos estudios realizados por reputadas universidades encontraron que al bot de IA le va mejor haciendo exámenes médicos que escribiendo código para programar.
Por un lado está el estudio realizado por la Universidad de Purdue, el cual encontró que al responder solicitudes de programación en la comunidad de programación Stack Overflow, “el 52% de las respuestas generadas por ChatGPT son incorrectas, aunque el 77% de las mismas fueron muy detalladas”.
Por el otro lado está un estudio realizado por UCLA y la Universidad Pepperdine de Malibu, el cual puso a prueba la pericia de ChatGPT para responder inquietudes difíciles sobre exámenes médicos. Acá abordó unas 850 preguntas de opción múltiple sobre nefrología, en las cuales tuvo un 73% de éxito, puntuando muy parecido al promedio de los médicos humanos que atendieron al mismo cuestionario.
Sobre esto último, el equipo de UCLA escribió:
La capacidad superior demostrada actual de GPT-4 para responder con precisión preguntas de opción múltiple en Nefrología apunta a la utilidad de modelos de IA similares y más capaces en futuras aplicaciones médicas.
Todo depende de la disponibilidad de la información
Al respecto, el científico informático del MIT, Lex Fridman, expuso que ChatGPT toma la información disponible públicamente para abordar las dudas planteadas por los usuarios, por lo que es posible que los modelos nutridos con datos que quizás sean de manejo más privado tengan mejores posibilidades.
También destacó que una IA no puede actuar adecuadamente fuera de los parámetros para los que fue entrenada, y en caso de hacerlo, incurre en una práctica denominada “alucinación”, cuyo grado de acierto muy probablemente no sea tan alto y detallado como cuando se trata de alguna solicitud sobre la cual hay información precisa disponible.
En todo caso, tanto ChatGPT como otras IA del mercado siguen en proceso de aprendizaje y desarrollo, por lo que es posible que futuras versiones proporcionen muchos más datos para abordar preguntas y solicitudes más complejas.
ADVERTENCIA: Este es un artículo de carácter informativo. DiarioBitcoin es un medio de comunicación, no promociona, respalda ni recomienda ninguna inversión en particular. Vale señalar que las inversiones en criptoactivos no están reguladas en algunos países. Pueden no ser apropiadas para inversores minoristas, pues se podría perder el monto total invertido. Consulte las leyes de su país antes de invertir.