Noticia Stable Diffusion 2.0, una AI capaz de sintetizar y modificar imágenes

Stable Diffusion 2.0

Imagen generada con Stable Diffusion 2.0



Hace poco Stability AI, dio a conocer mediante una publicación de blog la segunda edición del sistema de aprendizaje automático Stable Diffusion, que es capaz de sintetizar y modificar imágenes en función de una plantilla sugerida o una descripción de texto en lenguaje natural.

Stable Diffusion es un modelo de aprendizaje automático desarrollado por Stability AI para generar imágenes digitales de alta calidad a partir de descripciones en lenguaje natural. El modelo se puede usar para diferentes tareas, como la generación de traducciones de imagen a imagen guiadas por mensajes de texto y la mejora de imágenes.



A diferencia de modelos de la competencia como DALL-E, Stable Diffusion es de código abierto1 y no limita artificialmente las imágenes que produce. Los críticos han expresado su preocupación por la ética de la IA, afirmando que el modelo se puede utilizar para crear deepfakes.

El equipo dinámico de Robin Rombach ( Stability AI ) y Patrick Esser ( Runway ML ) del CompVis Group en LMU Munich encabezado por el Prof. Dr. Björn Ommer , dirigió el lanzamiento original de Stable Diffusion V1. Se basaron en su trabajo anterior del laboratorio con modelos de difusión latente y obtuvieron el apoyo fundamental de LAION y Eleuther AI . Puede leer más sobre el lanzamiento original de Stable Diffusion V1 en nuestra publicación de blog anterior . Robin ahora lidera el esfuerzo con Katherine Crowson en Stability AI para crear la próxima generación de modelos de medios con nuestro equipo más amplio.

Stable Diffusion 2.0 ofrece una serie de grandes mejoras y características en comparación con la versión V1 original

Principales novedades de Stable Diffusion 2.0​


En esta nueva versión que se presenta se ha creado un nuevo modelo de síntesis de imágenes basado en descripción de texto «SD2.0-v», que soporta la generación de imágenes con una resolución de 768×768. El nuevo modelo se entrenó utilizando la colección LAION-5B de 5850 millones de imágenes con descripciones de texto.

El modelo utiliza el mismo conjunto de parámetros que el modelo Stable Diffusion 1.5, pero se diferencia por la transición al uso de un codificador OpenCLIP-ViT/H fundamentalmente diferente, lo que hizo posible mejorar significativamente la calidad de las imágenes resultantes.


Se ha preparado una versión simplificada de SD2.0-base, entrenada en imágenes de 256×256 usando el modelo clásico de predicción de ruido y soportando la generación de imágenes con una resolución de 512×512.

Ademas de ello, tambien se destaca que se brinda la posibilidad de utilizar la tecnología de supermuestreo (Super Resolution) para aumentar la resolución de la imagen original sin reducir la calidad, utilizando algoritmos de escalado espacial y reconstrucción de detalles.

De los demás cambios que se destacan de esta nueva versión:

  • El modelo de procesamiento de imágenes proporcionado (SD20-upscaler) admite la ampliación 4x, lo que permite generar imágenes con una resolución de 2048×2048.
  • Stable Diffusion 2.0 también incluye un modelo Upscaler Diffusion que mejora la resolución de las imágenes en un factor de 4.
  • Se propone el modelo SD2.0-depth2img, que tiene en cuenta la profundidad y disposición espacial de los objetos. Para la estimación de la profundidad monocular se utiliza el sistema MiDaS.
  • Nuevo modelo de pintura interior guiado por texto, ajustado con precisión en la nueva base de texto a imagen Stable Diffusion 2.0
  • El modelo permite sintetizar nuevas imágenes utilizando otra imagen como plantilla, que puede ser radicalmente diferente de la original, pero conserva la composición y profundidad general. Por ejemplo, puedes usar la pose de una persona en una foto para formar otro personaje en la misma pose.
  • Modelo actualizado para modificar imágenes: SD 2.0-inpainting, que permite usar sugerencias de texto para reemplazar y cambiar partes de la imagen.
  • Los modelos se han optimizado para su uso en sistemas convencionales con una GPU.

Finalmente si estás interesado en poder conocer más al respecto, debes saber que el código de las herramientas para el entrenamiento de redes neuronales y la generación de imágenes está escrito en Python utilizando el marco PyTorch y publicado bajo la licencia MIT.


Los modelos ya entrenados están abiertos bajo la licencia permisiva Creative ML OpenRAIL-M, que permite el uso comercial.

Fuente: https://stability.ai

Continúar leyendo...