RCAST.NET

Últimos post

Stability AI lanza DeepFloyd IF, un potente modelo de texto a imagen que integra inteligentemente descripciones de texto en imágenes con alto fotorrealismo


Stability AI presenta DeepFloyd IF, un poderoso modelo de texto a imagen capaz de integrar de manera inteligente texto en imágenes. Este modelo de última generación fue desarrollado en conjunto con el laboratorio de investigación de inteligencia artificial multimodal de DeepFloyd. La licencia de DeepFloyd IF es no comercial y se permite su uso para la investigación, lo que ofrece la oportunidad de examinar y experimentar con enfoques avanzados de generación de texto a imagen.


DeepFloyd IF utiliza el modelo de lenguaje T5-XXL-1.1 como codificador de texto, con numerosas capas de cross-attention texto-imagen para mejorar la alianza entre el texto y la imagen. Gracias a la inteligencia del modelo T5, DeepFloyd IF puede generar texto coherente y claro junto con objetos de diferentes propiedades que aparecen en diversas relaciones espaciales, una tarea difícil para la mayoría de los modelos de texto a imagen. Además, tiene la capacidad de generar imágenes con una relación de aspecto no estándar, vertical u horizontal, además de la relación de aspecto cuadrada estándar.

DeepFloyd IF también puede realizar traducciones de imagen a imagen sin ajustes finos. El proceso de modificación de la imagen implica: 1) cambiar el tamaño de la imagen original a 64 píxeles, 2) agregar ruido a través de la difusión hacia adelante y 3) utilizar la difusión hacia atrás con un nuevo texto de ayuda para desenfocar la imagen. A través de esta técnica se puede modificar el estilo, los patrones y los detalles de la salida, manteniendo la forma básica de la imagen original.

El modelo DeepFloyd IF presenta una alto fotorealismo, como se refleja en su impresionante puntuación FID de 6.66 en el conjunto de datos COCO. DeepFloyd IF se puede utilizar para crear diferentes conceptos de fusión mediante el uso de promtps para organizar textos, estilos y relaciones espaciales de acuerdo con las necesidades del usuario.

DeepFloyd IF es un modelo modular, en cascada y de difusión de píxeles que consiste en varios módulos neuronales cuyas interacciones en una sola arquitectura crean sinergia. El modelo tiene tres etapas de rendimiento, en las que un texto de ayuda se convierte en una representación de texto cualitativa mediante el modelo de lenguaje T5-XXL, y luego se transforma en una imagen de 64x64 utilizando un modelo base de difusión. A continuación, se aplican dos modelos de súper resolución condicionales de texto para amplificar la imagen.

DeepFloyd IF fue entrenado en un conjunto de datos personalizado LAION-A que contiene 1 mil millones de pares (imagen, texto). Este conjunto de datos es una subsección estética del conjunto de datos LAION-5B en inglés, y se obtuvo después de la eliminación de duplicados, la limpieza adicional y otras modificaciones al conjunto de datos original.

DeepFloyd IF representa un importante avance en la generación de texto a imagen, y su disponibilidad para la investigación puede permitir a los investigadores desarrollar nuevos enfoques y aplicaciones para este campo en constante evolución.

No hay comentarios