Un equipo de investigadores de Google Brain presentó recientemente un nuevo modelo de lenguaje de IA. Es un sistema de transformadores masivos de mil millones de parámetros. El siguiente modelo más importante sería el GPT-3 de OpenAI, que utiliza unos 175 mil millones de parámetros.
El contexto
Los modelos de lenguaje son capaces de realizar diferentes funciones, las más populares pueden ser la generación de nuevos textos. Por ejemplo, puedes hablar con una inteligencia artificial que simula ser un filósofo siendo capaz de responder a cualquier pregunta que hagas.
Si bien estos increíbles modelos de IA existen y son la vanguardia del aprendizaje automático, es importante recordar que básicamente son solo trucos. Estos sistemas no incluyen el lenguaje, sólo se refinan para dar la impresión de que lo hacen.
Aquí es donde entra en juego el número de parámetros. Cuantos más botones y diales virtuales pueda girar y ajustar, mejores serán las salidas y más control sobre los resultados.
Lo que ha conseguido Google
En términos simples, el equipo de Brain ha encontrado la forma de crear un modelo muy simple que aprovecha la máxima potencia de computación en bruto como sea posible. Esto es para hacer posible aumentar el número de parámetros.
El equipo simplificó el modelo Mixture of Experts para producir una arquitectura fácil de entender, estable de entrenar y mucho más eficiente en muestreo que modelos densos de tamaño equivalente.
El hallazgo: estos modelos sobresalen en un conjunto diverso de tareas de lenguaje natural y en diferentes regímenes de formación, incluyendo pre-entrenamiento, desarrollo y capacitación multitarea. Estos avances permiten formar modelos con cientos de miles de millones a miles de millones de parámetros y que logran mejoras sustanciales con respecto a las densas líneas de base T5.
No está claro lo que esto significa o lo que Google pretende hacer con las técnicas descritas. Este modelo es más que un solo OpenAI. Cómo Google o sus clientes puedan utilizar este nuevos sistema es aún desconocido.
La idea principal es que la fuerza bruta conducirá a mejores técnicas de uso computacional que a su vez les permitirán hacer más con menos cálculo. Pero la realidad actual es que estos sistemas no tienden a justificar su existencia en relación con tecnologías más ecológicas y útiles.
Es difícil crear un sistema de IA que sólo puede ser explotado por empresas tecnológicas de 1.000 millones de dólares dispuestas a ignorar la enorme huella de carbono creada por este sistema.