Aunque se está volviendo más tonto, ChatGPT es mejor doctor que programador, dicen expertos

𝕏

Domingo, 13 de Agosto, 2023

Por Angel Di Matteo @shadowargel

Mientras un estudio pone en evidencia que ChatGPT ha venido perdiendo facultades tras cada actualización, otras investigaciones encontraron que el chatbot es más útil y preciso en tareas médicas que de programación.

***

Un estudio encontró diferencias sustanciales entre GPT-3.5 y GPT-4
La versión posterior es menos precisa que su antecesora a la hora de dar respuestas
En tareas de programación, ChatGPT mostró un rendimiento por debajo del 50%
Pero en preguntas médicas, tuvo una tasa de éxito del 73%
El grado de acierto de ChatGPT depende principalmente del contenido disponible del cual se basa

Desde su llegada al mercado, ChatGPT de OpenAI figura como uno de los chatbots de inteligencia artificial (IA) más utilizados hoy día. La compañía responsable lanza actualizaciones con frecuencia para optimizar su funcionamiento, pero ante la proliferación de otros productos similares con distintas propiedades, ciertos usuarios ya alertan que comience a quedarse corto frente a lo que otros modelos de leguaje avanzados ofrecen.

Así lo ponen en evidencia ciertos estudios realizados por varias universidades, los cuales cuestionan las habilidades generales de ChatGPT tras la implementación de la versión GPT-4, así como su destreza para el desarrollo de ciertas solicitudes en áreas de conocimiento particulares.

¿ChatGPT se está haciendo más tonto?

Partiendo primero desde una visión más general, un estudio realizado por científicos de la Universidad de Standford, citado por el medio Futurism, apunta a que ChatGPT podría estarse volviendo “más tonto” tras las nuevas actualizaciones, esto dado que existen diferencias importantes entre el desempeño de GPT-3.5 y GPT-4, encontrando menos precisión en las respuestas que arroja la versión más reciente.

La evaluación hecha por los científicos contempló varios aspectos entre ambas versiones, como por ejemplo su pericia para realizar cálculos matemáticos, análisis ante determinadas solicitudes, y su capacidad para generar código aplicable al desarrollo de software. Aparentemente la versión con GPT-3.5 tiene una mayor precisión y éxito que la posterior, lo que da la impresión que el chatbot ha perdido facultades en lugar de optimizarse.

Según indica el reporte, esta misma impresión la han tenido muchos usuarios que usan al chatbot, los cuales alegan que tanto GPT-3.5 como GPT-4 han venido cambiado significativamente su comportamiento, resultando menos precisos y con respuestas carentes de la calidad vista en versiones previas.

La expectativa es mejorarlo

Frente a estos señalamientos, el vicepresidente de producto de OpenAI, Peter Welinder, rechazó la tesis de que las versiones posteriores de GPT sean “menos inteligentes”, alegando que la expectativa es que supere a sus predecesoras.

Al respecto, Welinder aclaró que los cambios en la experiencia de los usuarios “podrían deberse al uso continuo”, especificando que probablemente “cuando usas [ChatGPT] más intensamente, comienzas a notar problemas que no veías antes”.

Mejor doctor que programador

Pero dejando atrás los debates sobre la inteligencia global de ChatGPT, otro de los aspectos que generó cierto interés entre los interesados es la pericia del chatbot para atender solicitudes en determinadas áreas de conocimiento. Bajo esta premisa, dos estudios realizados por reputadas universidades encontraron que al bot de IA le va mejor haciendo exámenes médicos que escribiendo código para programar.

Por un lado está el estudio realizado por la Universidad de Purdue, el cual encontró que al responder solicitudes de programación en la comunidad de programación Stack Overflow, “el 52% de las respuestas generadas por ChatGPT son incorrectas, aunque el 77% de las mismas fueron muy detalladas”.

Por el otro lado está un estudio realizado por UCLA y la Universidad Pepperdine de Malibu, el cual puso a prueba la pericia de ChatGPT para responder inquietudes difíciles sobre exámenes médicos. Acá abordó unas 850 preguntas de opción múltiple sobre nefrología, en las cuales tuvo un 73% de éxito, puntuando muy parecido al promedio de los médicos humanos que atendieron al mismo cuestionario.

Sobre esto último, el equipo de UCLA escribió:

La capacidad superior demostrada actual de GPT-4 para responder con precisión preguntas de opción múltiple en Nefrología apunta a la utilidad de modelos de IA similares y más capaces en futuras aplicaciones médicas.

Todo depende de la disponibilidad de la información

Si bien es notorio que ChatGPT tuvo un mejor desempeño en temas médicos que en las áreas de programación, la razón detrás de esto bien podría obedecer a la disponibilidad de la información en la que se basa el chatbot para responder a las solicitudes.

Al respecto, el científico informático del MIT, Lex Fridman, expuso que ChatGPT toma la información disponible públicamente para abordar las dudas planteadas por los usuarios, por lo que es posible que los modelos nutridos con datos que quizás sean de manejo más privado tengan mejores posibilidades.

También destacó que una IA no puede actuar adecuadamente fuera de los parámetros para los que fue entrenada, y en caso de hacerlo, incurre en una práctica denominada “alucinación”, cuyo grado de acierto muy probablemente no sea tan alto y detallado como cuando se trata de alguna solicitud sobre la cual hay información precisa disponible.

Por ende, es mucho más fácil para una IA como ChatGPT poder acceder a contenidos médicos de amplia difusión en Internet, en lugar de repositorios que no sean de código abierto sobre programación. De aquí está la explicación tentativa sobre sus buenas facultades en el área de la salud frente a las deficiencias para aspectos inherentes a la codificación.

En todo caso, tanto ChatGPT como otras IA del mercado siguen en proceso de aprendizaje y desarrollo, por lo que es posible que futuras versiones proporcionen muchos más datos para abordar preguntas y solicitudes más complejas.

Artículo de Angel Di Matteo / DiarioBitcoin

Imagen de Unsplash

ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

𝕏

USDT	Tether USDt	-0,0%	$89,25 mmd
BTC	Bitcoin	-3,15%	$46,29 mmd
ETH	Ethereum	-6,48%	$22,01 mmd
USDC	USDC	-0,0%	$15,33 mmd
FDUSD	First Digital USD	-1,7%	$7,32 mmd
XRP	XRP	-5,62%	$5,54 mmd
SOL	Solana	-6,98%	$5,18 mmd
BNB	BNB	-3,66%	$1,82 mmd
DOGE	Dogecoin	-6,23%	$1,7 mmd
SUI	Sui	-5,78%	$1,29 mmd

EOS	EOS	15,7%	$0,795 19
DEXE	DeXe	6,67%	$14,48
RAY	Raydium	5,16%	$1,89
LEO	UNUS SED LEO	1,33%	$9,37
PAXG	PAX Gold	1,23%	$3.173,43
XAUt	Tether Gold	0,69%	$3.162,67
OM	MANTRA	0,28%	$6,3
TUSD	TrueUSD	0,09%	$0,998 95
PYUSD	PayPal USD	0,0%	$0,999 579

BONK	Bonk	-13,07%	$0,000 01
JUP	Jupiter	-12,18%	$0,374 191
TRUMP	OFFICIAL TRUMP	-12,12%	$9,11
JASMY	JasmyCoin	-11,93%	$0,009 86
RENDER	Render	-11,59%	$3,27
WLD	Worldcoin	-11,25%	$0,713 639
GALA	Gala	-10,27%	$0,014 243
LDO	Lido DAO	-9,96%	$0,809 094
AAVE	Aave	-9,96%	$150,0
CRV	Curve DAO Token	-9,95%	$0,484 722

Aunque se está volviendo más tonto, ChatGPT es mejor doctor que programador, dicen expertos

¿ChatGPT se está haciendo más tonto?

La expectativa es mejorarlo

Mejor doctor que programador

Todo depende de la disponibilidad de la información

Artículos Relacionados

ChatGPT imagina su cuerpo real: estética, ética y colaboración con humanos

OpenAI logra mayor recaudación privada en tecnología con USD $40.000 millones

Las memecoins de Studio Ghibli flotan a la superficie replicando la última moda de Internet

Galaxy Digital recibe licencia para operar con derivados en Reino Unido