La empresa de aprendizaje automático OpenAI desarrolla modelos que mejoran la visión por ordenador y pueden producir imágenes originales a partir de texto.
DALL-E es una red neuronal que puede tomar cualquier texto y hacer una imagen de él, dice Ilya Sutskever, cofundadora de OpenAI y científica jefe. Esto incluye conceptos que nunca habría encontrado en el entrenamiento, como dibujar un rábano antropomórfico paseando a un perro. DALL-E funciona de la misma manera que GPT-3, un modelo que puede, entre otras cosas, generar pasajes de texto originales a partir de unas pocas palabras.
CLIP, la otra nueva red neuronal, puede tomar cualquier conjunto de categorías visuales y al instante crear descripciones de texto muy sólidas y visualmente confiables, explica Sutskever. Esto mejora las técnicas de visión artificial existentes con menos preparación y menos potencia informática. El año pasado, OpenAI pudo hacer progresos sustanciales en el texto con el GPT-3. El mundo no es sólo texto, es un paso hacia un objetivo mayor de construir una red neuronal que pueda funcionar tanto en imágenes como en texto.
OpenAI se inspiró en una obra de Salvador Dalí y el robot WALL-E de Pixar para bautizar a su modelo. Al ingresar el corpus "una lata de sopa con la palabra skynet", DALL-E genera varias imágenes de latas con una etiqueta que dice "skynet". El modelo puede tomar conceptos independientes que no son nada y unirlos en un objeto funcional, dice Aditya Ramesh, ingeniera de DALL-E.
CLIP por su parte puede identificar imágenes. La verdadera ventaja del modelo es su eficacia, que se convierte en un problema mayor en el campo porque el coste de calcular el entrenamiento de modelos de aprendizaje automático es bastante alto. Cierto, pero al igual que GPT-3, los nuevos modelos están lejos de ser perfectos. Con DALL-E en particular. Esto depende de cómo se formule exactamente el corpus de texto para generar una imagen coherente.