Microsoft presentó la versión actualizada de su modelo de lenguaje pequeño, que demostró gran capacidad superando a otros modelos de IA como Llama2 de Meta e incluso a Gemini de Google.
***
Today, we share our teams’ latest contributions, Phi-2 and promptbase.
Phi-2 outperforms other existing small language models, yet it’s small enough to run on a laptop or mobile device. https://t.co/wLhUeRsByL
— Microsoft Research (@MSFTResearch) December 12, 2023
A diferencia de GPT y otros modelos de lenguajes grandes (LLM), un SLM se entrena en un conjunto de datos limitado, utiliza menos parámetros pero también requiere menos cálculos para ejecutarse. Como resultado, el modelo que no puede generalizarse tanto como un LLM pero que puede ser muy bueno y eficiente en tareas específicas, como matemáticas y cálculos.
Phi-2 supera a grandes, incluida la IA de Google
Phi-2 ha mostrado desempeño sobresaliente en pruebas de referencia complejas, evaluando sus habilidades de razonamiento, comprensión del lenguaje, matemáticas, codificación y sentido común. Este modelo es notable por superar el rendimiento de modelos mucho más grandes y establecidos, incluyendo Mistral de 7.000 millones de parámetros y Llama 2 de Meta de 13 mil millones parámetros, y en algunos casos, incluso supera a Gemini Nano de Google, que es el modelo más eficiente dentro de la recién anunciada serie Gemini.
Una característica interesante de Phi-2 es que, a diferencia de modelos de lenguaje más grandes, fue entrenado con lo que Microsoft denomina “datos de calidad de libro de texto“, enfocados específicamente en conocimiento, razonamiento y sentido común. Esto permite que Phi-2 aprenda más a partir de una menor cantidad de información. Además, Microsoft implementó técnicas que permiten la incorporación de conocimientos de modelos más pequeños.
Phi-2 ha logrado un rendimiento sólido sin utilizar técnicas como el aprendizaje reforzado basado en retroalimentación humana o la afinación instructiva, que a menudo se emplean para mejorar el comportamiento de los modelos de IA. A pesar de no utilizar estas técnicas, Phi-2 demostró un rendimiento superior en términos de mitigar sesgos y toxicidad en comparación con otros modelos de código abierto que sí los utilizan. Microsoft atribuye esto a su técnica de curación de datos a medida.
Phi-2 es el más reciente lanzamiento en una serie de lo que los investigadores denominan “modelos de lenguaje pequeños” o SML. El primero, Phi-1, se lanzó a principios de este año con 1,3 mil millones de parámetros, habiendo sido afinado para tareas básicas de codificación en Python. En septiembre, la empresa lanzó Phi-1.5, con 1,3 mil millones de parámetros, entrenado con nuevas fuentes de datos que incluían varios textos sintéticos generados con programación en lenguaje natural.
La eficiencia de Phi-2 lo convierte en una plataforma ideal para investigadores que deseen explorar áreas como la mejora de la seguridad de la IA, la interpretabilidad y el desarrollo ético de modelos de lenguaje.
Artículo de DiarioBitcoin, creado con ayuda de IA
Imagen de Microsoft
ADVERTENCIA: Este es un artículo de carácter informativo. DiarioBitcoin es un medio de comunicación, no promociona, respalda ni recomienda ninguna inversión en particular. Vale señalar que las inversiones en criptoactivos no están reguladas en algunos países. Pueden no ser apropiadas para inversores minoristas, pues se podría perder el monto total invertido. Consulte las leyes de su país antes de invertir.