Para sorpresa de todos, Apple ha presentado Pico-Banana-400K, un nuevo modelo diseñado para mejorar a los modelos de inteligencia artificial especializados en la edición de imágenes. Y aunque no se trata de algo accesible por el público de a pie, sino orientado a mejorar la precisión de los modelos de IA existentes, demuestra ser ambicioso.
La idea fundamental es la de tener una mayor precisión en modelos ya existentes y que, por ejemplo, si le adjuntamos a ChatGPT una foto nuestra pidiéndole que nos añada un sombrero, se mantenga fiel a la imagen original y la edición sea realista. Todo el código de Pico-Banana-400K está en GitHub.
Así es Pico-Banana-400K
Pico-Banana-400K es un conjunto de datos cuidadosamente estructurados que combina imágenes reales con instrucciones de texto naturales, pensado para entrenar modelos de IA de edición fotográfica. Lo de llamarse "400K" no es casual, dado que se incluyen 400.000 ejemplos de fotos originales con sus respectivos cambios modificados por la IA.
Cada imagen se organiza en distintos tipos de edición, desde ajustes básicos de color hasta transformaciones más complejas. Por ejemplo, convertir a personas en personajes de Pixar o figuras de LEGO. Esto permite que la IA aprenda no solo cambios simples, sino también adaptaciones estilísticas más avanzadas.
En Applesfera
He probado el modo gratis de ChatGPT Atlas en mi Mac. Y ahora tengo serias dudas de abandonar Chrome y Safari
El dataset de Pico-Banana-400K se divide en tres subgrupos principales: 258.000 ejemplos de edición individual para entrenamiento básico, 56.000 pares de preferencia que comparan resultados correctos e incorrectos y 72.000 secuencias de múltiples pasos que muestran cómo una imagen puede evolucionar mediante varias ediciones consecutivas.
Para asegurarse de que los datos son de calidad, Apple ha utilizado un sistema de control impulsado también por IA. Este evaluó la capacidad de los modelos para cumplir con todo tipo de instrucciones, manteniendo la fidelidad de la imagen original que se usa.
Nada que ver con Apple Intelligence
Hace más de un año y medio que Apple presentó MGIE, un modelo que en este caso sí era capaz de realizar edición de imágenes desde cero. Lo presentó meses antes de que Apple Intelligence fuese oficial con iOS 18, pero tenía más que ver con una muestra de sus avances dentro de un proyecto de código abierto con la Universidad de California.
Aquel no llegó al público, aunque se llegó a especular con que fuese una herramienta nativa dentro de la app Fotos. Y algo parecido ocurrirá ahora con Pico-Banana-400K, ya que no la podrá aprovechar de forma directa el usuario medio del iPhone o Mac.
En Applesfera
He probado muchas apps de IA para iPhone y estas son las más útiles y que más recomiendo
El enfoque de este modelo, como ya comentábamos anteriormente, está en proporcionar un conjunto de datos que sirva a cualquier desarrollador (grande o pequeño) para entrenar y mejorar sus respectivos modelos de edición de imágenes.
Eso no quita que la propia Apple no pueda aprovecharlo también en aplicaciones como Image Playground o algún futuro editor que añada en el futuro con iOS 27 o en apps como Pixelmator, la cual tiene muy abandonada.
En Applesfera | ¿Cuántos años de actualizaciones le quedan a mi iPhone? Así podemos saberlo
En Applesfera | Apple Intelligence: guía completa de funciones y cómo aprovecharlas al máximo
-
La noticia Apple ha presentado una IA para entrenar a otras IAs. Se llama Pico-Banana-400K y quiere mejorar la edición de imágenes fue publicada originalmente en Applesfera por Álvaro García M. .
Continúar leyendo...