Tenemos nuevos iPhones. Y la presentación de los mismos (como ya sospechaba y adelanté en mi podcast) se centró en gran parte en las nuevas cámaras y sus capacidades. Incluso aprendimos un nuevo término: los Slofies. Pero la verdadera innovación de las cámaras de los nuevos iPhone (y así ha sido en las últimas generaciones de estos) y lo que hace posible que esas cámaras sean tan buenas, no son las cámaras, es el procesador A13 Bionic y sus componentes.
En este artículo vamos a analizar qué es la fotografía computacional. La magia que hay detrás para que unas cámaras que físicamente no presentan ninguna innovación reseñable, sean capaces de conseguir un resultado que es excepcional.
No son las cámaras, es el chip y el software
Tendemos a hablar de las cámaras de un dispositivo. Que si la cámara de tal móvil es mejor que la del otro. Que si el Pixel es mejor que el iPhone, que el Huawei es mejor en algunas que el Pixel... estamos equivocando todo. Las cámaras, físicamente hablando, son prácticamente las mismas y estas hace mucho tiempo que tocaron techo en innovación. Las cámaras, el dispositivo físico de la cámara, solo capta la información y en eso todos los móviles son casi iguales.
Tendemos a pensar que las cámaras de un móvil son mejores o peores. Pero no es así. Físicamente, las cámaras de los móviles son casi iguales en los últimos años. La diferencia está en el procesamiento por software y la capacidad por hardware de los procesadores. Eso marca la diferencia, no las cámaras en sí.
Apple presentó 2 cámaras para el iPhone 11 y 3 en los modelos Pro. Pero la cámara gran angular es la misma que la generación pasada con los mismos componentes, los mismos megapíxeles, la misma apertura, la misma distancia focal... la nueva cámara ultra gran angular es nueva así que no podemos compararla con modelos anteriores, pero es una cámara que no tiene estabilización óptica, una apertura menor de f/2.4 (igual a la cámara teleobjetivo de otros años) y tiene 5 componentes para la lente en vez de 6. Si miramos la cámara teleobjetivo de los modelos Pro, también es igual a los modelos anteriores aunque en esta ocasión mejora la apertura que pasa de f/2.4 a f/2.0 por lo que es más luminoso conservando la distancia focal.
Lo que quiero decir con todo esto es que las cámaras son geniales, pero su rango de mejora es mínimo o inexistente a nivel físico. Insisto, única u estrictamente como componentes hardware con unas características determinadas. Entonces, ¿por qué los nuevos iPhone hacen fotos increíbles? Por el procesador A13 Bionic y el uso de la fotografía computacional. Desde hace varios años, la innovación en la fotografía no está en las cámaras. Está en el software y el hardware que procesa las fotografías. Son los increíbles algoritmos de Google (que solo están en los Pixel en la app Google Camera) los que hacen la magia. Un procesamiento que exprime la información obtenida de las lentes y consigue los tan celebrados modos retrato o modo noche de esos teléfonos. Por lo tanto, es el software y la capacidad de procesamiento de los chips del teléfono lo que marca la diferencia.
En el caso de los nuevos iPhone, la innovación está en los chips A13 Bionic y sus nuevos componentes. Si nos centramos exclusivamente en fotografía, el nuevo A13 tiene componentes específicos para procesar las más de un billón de operaciones por fotografía que realiza. En concreto tiene un chip encargado específicamente del procesado del modo HDR. También tiene un componente específico para el cálculo de la fusión de fotografías por cálculo computacional y un motor de cálculo de profundidad de la fotografía. Además, usa el motor neuronal para entender la semántica de la fotografía y aplicar de forma inteligente cambios sobre esta.
Así se procesan (no se hacen) las fotos en un iPhone
Vamos a ver el ejemplo que puso Apple: una fotografía (retrato) de una chica que al estar con una fuente de luz tras ella, hace que su rostro aparezca más oscuro. El nuevo proceso de fotografía computacional y Machine Learning, incorpora el entendimiento de la imagen a través de su compresión semántica: que el software sepa (con ayuda del hardware) qué contenido hay en la fotografía.
El procesador detecta que es un retrato, detecta la persona a la que hemos hecho retrato y detecta su rostro y las partes del mismo. Detecta que el rostro está oscurecido y la imagen no está compensada. Así que el procesador de señales de imagen (ISP, otro componente del A13 Bionic) cogerá la información para esos píxeles en las tomas más expuestas de las 8 fotografías (4 principales y 4 secundarias) que toma la lente. Cada vez que pulsamos el disparador de la cámara, el teléfono hace 8 fotografías: 4 con diferentes exposiciones para el HDR, desde más oscuras a más claras, y luego otras 4 secundarias para calcular exposición correcta, balance de blancos, foco y mapa de tonos. Sobre las de mayor exposición además calcula el detalle de los brillos.
Con toda esta información, realiza una fusión de toda la información en una sola imagen. Pero los nuevos A13 incorporan a este proceso (similar al que ya hacían los XS, XS Max y XR con el A12 Bionic), 4 capas más de Machine Learning: detección facial, rasgos del rostro, máscara de segmentación de la imagen y semántica de la imagen (entender qué sale en esta).
De esa forma, la cara de la persona (donde se entiende y localizan ojos, nariz, boca, óvalo facial, etc...) quedará un poco más iluminada fusionando los píxeles tomados en las fotografías de mayor exposición y tendremos su rostro con todo el detalle arreglando en tiempo real un fallo normal en cualquier fotografía de esas características. Esto no lo hace la cámara: lo hace el software y el uso de los componentes del A13 Bionic.
También hay quien dice: las lentes podían ser mejores para que no tengan tanto ruido al hacer la fotografía más oscura. No importa. El nuevo chip A13 Bionic es el que permite la fotografía en modo nocturno. Cuando hago una, el iPhone detecta automáticamente que no hay la suficiente luz para que la fotografía salga bien, así que cambia el modo y la hace en modo nocturno.
¿Cómo funciona? El sistema determina el tiempo que tardará la fusión de la imagen y usa una horquilla adaptativa sobre el tiempo que necesitará para hacer la fotografía en base a lo que ve la cámara en el modo preview. Si a lo que intentamos hacer la fotografía está quieto, hará menos exposiciones más largas, pero si está en movimiento hará tomas más cortas con diferentes formas de captar la luz. Si hay más sombras, hará una captura de más información para fusionar la información. Todo ello con el estabilizador óptico para no mover la lente al hacer la fotografía.
De esta forma, el modo nocturno se adapta a aquello que queremos fotografiar adaptando las exposiciones, tiempo, encuadre y demás. Si la exposición hace que la fotografía esté movida o salga con más ruido, lo arregla. ¿Qué hace para ello? Saca la información combinando las diferentes exposiciones, fusionando la información, aplicando reducción de ruido y buscando la toma qué mejor calidad tiene reconociendo los elementos por Machine Learning. Y sobre las fotografías de exposición más cortas para detalles oscuros, sabrá cómo es la imagen menos movida y aplicará esos detalles a la imagen final para reducir el movimiento en la toma fusionando píxeles.
El modo nocturno se activa de forma automática, pero se realiza totalmente en post-procesado, por lo que habrá que esperar para ver el resultado final de la toma.
Lo que obtenemos al final es que el dispositivo a alineado la fotografía, descartado las zonas más oscuras, ha usado la información de las más iluminadas para mejor la foto, equilibra contraste y colores y reduce el ruido. Todo en post-procesado. Con una mezcla única de hardware y software. Las cámaras no hacen la foto en modo noche, claramente.
Fusión profunda, el siguiente paso
Todo estos procesos que hemos comentado tienen una combinación perfecta de funcionalidad entre el ISP (el procesador de señales de imagen) del chip A13 Fusion, apoyado por el motor neuronal con aprendizaje automático que detecta el contenido de la escena y ayuda a mejorar las fotografías. Pero Apple ayer presentó el siguiente paso en la fotografía computacional. Porque hasta ahora hemos visto esta como apoyo a un proceso convencional. Deep Fusion (o fusión profunda) es delegar todo el proceso al aprendizaje automático. El 100% del post-procesado de la fotografía se hará por inteligencia artificial tras recibir la información de las cámaras.
Apple nos dice que el tipo de fotografías que será capaz de obtener este modo no se han visto nunca antes y son imposibles de realizar con cualquier cámara ya que no es una fotografía en sí: es un post-procesado de Machine Learning que obtiene una fotografía imposible de tomar tal cual por una cámara, solo se puede obtener mediante algoritmos de este tipo.
Deep Fusion es un modo 100% a partir de inteligencia artificial y que aplica un modelo donde se selecciona el mejor pixel de cada imagen y se aplican algoritmos de fusión para que la foto parezca hecha en una sola exposición. Esto dará un detalle en los elementos que saca la fotografía sin precedentes hasta ahora.
Cuando ponemos el iPhone Pro (porque este modo es solo para los modelos Pro) en este nuevo modo (que aún no está disponible y saldrá en otoño, probablemente con iOS 13.2) el dispositivo detecta cuándo vamos a hacer la foto. Y en el momento que vamos a presionar el botón (antes de hacerlo), dispara las 8 fotografías que normalmente hace: 4 de diferentes exposiciones y 4 de información secundaria. Al pulsar el disparador ya ha tirado esas y ahora lanza una de larga exposición para capturar todos los detalles. Con esas 9 fotografías, pixel a pixel en más de 2.400.000 pixeles, compara uno con otro, busca la mejor versión de cada uno, y compone una imagen que viene a tardar un segundo en ser procesada para mostrar el mejor resultado de cada una de esas fotografías.
Sin duda un nuevo e interesante concepto, de nuevo basado en software, que demuestra una vez que la innovación no está en las cámaras: está en los chips y software que procesa lo que estas captan.
En próximos artículos hablaremos más en detalle del chip A13 Bionic, sus otras capacidades, cómo gestiona la energía, cómo decide controlar los procesos para optimizar el rendimiento del equipo y qué interesantes componentes tiene.
También te recomendamos
Project Calalyst, así funciona la conversión de las apps de iPadOS al Mac
La otra cara de la WWDC: así mejorarán las apps con estas librerías que Apple presentó y de las que nadie ha hablado aún
Privacidad y Machine Learning, importantes innovaciones de Apple en iOS 13 y demás sistemas
-
La noticia iPhone 11 y fotografía computacional: la magia tras las cámaras de esta generación fue publicada originalmente en Applesfera por Julio César Fernández .
Continúar leyendo...