Noticia Identificación de aves por su canto con inteligencia artificial offline

cómo usar la IA para identificar aves


Escuchar un trino en el jardín y poder saber en segundos qué ave lo emite ya no es ciencia ficción. Gracias a la inteligencia artificial aplicada al sonido, hoy podemos identificar especies de aves a partir de sus cantos casi como si tuviéramos un ornitólogo en el bolsillo. La novedad es que estas herramientas están dando un salto: cada vez más proyectos buscan que esta identificación se pueda hacer de forma fiable incluso sin conexión a internet, algo clave si te mueves por bosques, alta montaña o zonas rurales remotas.

En paralelo, se están publicando enormes bases de datos de audio cuidadosamente anotadas por expertos, que sirven para entrenar y mejorar estos sistemas. Esta combinación de grabadoras, algoritmos y ciencia ciudadana está cambiando la manera en la que monitorizamos la biodiversidad y abrriendo la puerta a aplicaciones de identificación de aves por su canto que funcionen de manera más estable, rápida y, cada vez más, también en modo offline.

BirdNET: inteligencia artificial para reconocer aves por su canto​


Uno de los proyectos más punteros en este campo es BirdNET, desarrollado conjuntamente por el K. Lisa Yang Center for Conservation Bioacoustics del Cornell Lab of Ornithology y la Universidad Técnica de Chemnitz. Esta herramienta se basa en redes neuronales profundas entrenadas con miles de horas de audio, y es capaz de sugerir la especie más probable a partir de una grabación de canto o reclamo.

La aplicación BirdNET permite que cualquier persona grabe el sonido ambiente con el micrófono de su móvil Android y reciba en pocos segundos una estimación de qué aves están cantando. También se pueden subir archivos de audio previamente grabados, lo que la convierte en una herramienta de campo muy flexible: puedes dejar un grabador en un lugar remoto, llevarte los ficheros y analizarlos después con la app o con las herramientas asociadas.

El sistema no solo da un nombre, sino que indica un nivel de probabilidad para cada especie detectada. Esto es crucial a la hora de interpretar los resultados: el usuario puede ver qué sonidos se han detectado en el sonograma, comprobar las propuestas y valorar si tienen sentido según el contexto (hábitat, época del año, etc.). Esta combinación de sugerencias automáticas y verificación humana está en el corazón del enfoque de BirdNET.

Cómo aprende un ordenador a reconocer cantos de aves​


Para que un ordenador distinga un ruiseñor de un gorrión a partir de su canto, necesita entrenarse con una gran cantidad de grabaciones etiquetadas. BirdNET utiliza inteligencia artificial y modelos de aprendizaje profundo que analizan el audio y lo transforman en representaciones visuales del sonido, como espectrogramas, donde se ve cómo cambia la frecuencia a lo largo del tiempo.

Durante el entrenamiento, el algoritmo recibe miles de ejemplos de cantos de cada especie. A cada fragmento se le indica qué ave está cantando y, en muchos casos, también el tipo de vocalización. Con el tiempo, la red neuronal aprende a reconocer patrones característicos en el timbre, la estructura y el ritmo de cada especie. Cuando luego escucha un sonido nuevo, compara esos patrones con lo que ha aprendido para devolver una lista de especies probables.

Este enfoque tiene una gran ventaja: BirdNET no se limita a unas pocas especies locales, sino que ha sido entrenado para reconocer más de 3.000 especies de aves de todo el mundo, y en versiones más recientes se hablan ya de más de 6.000 especies potenciales. Cuanto más se utiliza y más datos se incorporan, mejor ajusta sus modelos, lo que se traduce en un incremento progresivo de la precisión, especialmente en especies complicadas.

Ventajas y límites de la identificación automática por canto​


Usuarios que llevan tiempo usando BirdNET destacan que se trata, sobre todo, de una herramienta pensada para el trabajo de campo. Una vez en marcha, basta con iniciar la grabación en el móvil y dejar que el algoritmo vaya marcando fragmentos en los que detecta cantos. El sonograma que muestra la aplicación es también un recurso didáctico muy potente: permite visualizar el canto y relacionar mentalmente el dibujo del espectro con lo que se oye, algo muy útil para aprender a oído.

Aunque la precisión va mejorando con rapidez, la identificación automática de sonidos es más difícil que la de imágenes. Los motivos son variados: los micrófonos de muchos teléfonos tienen una calidad limitada, hay una enorme variabilidad en los cantos entre individuos y poblaciones, y el ruido de fondo (tráfico, viento, otras especies sonando a la vez) puede complicar mucho el análisis. Aun así, usuarios habituales han notado en pocos meses un salto notable en la tasa de aciertos con determinadas especies.

Una limitación importante en muchas instalaciones actuales de BirdNET es que, en su versión de aplicación para móviles, la identificación suele realizarse en servidores remotos. Es decir, la grabación se envía a la nube, se procesa allí y se devuelve el resultado al usuario. Esto implica que, por ahora, en muchos casos se necesita cobertura de datos para aprovechar todo el potencial de la app, algo que no siempre es posible en zonas naturales aisladas.

BirdNET como herramienta educativa y de ciencia ciudadana​


cómo usar la IA para identificar aves


Más allá de la identificación puntual, BirdNET se concibió desde el principio también como un proyecto de ciencia ciudadana. Los usuarios pueden enviar sus grabaciones etiquetadas como observaciones, contribuyendo a una enorme base de datos global sobre distribución y fenología de las aves. Esta información es oro puro para investigadores en ecología y conservación.

Al mismo tiempo, el uso de la app ayuda a que el público general conozca mejor las especies que le rodean. Grabar un canto, ver el sonograma y comprobar el resultado anima a la gente a interesarse por el comportamiento, la migración y los hábitats de las aves. Recursos como el proyecto «The Sound Approach», con material didáctico excelente sobre sonogramas y cantos, encajan muy bien con este enfoque de aprender tanto con el oído como con la vista.

Avefy: aprender cantos de aves jugando​


Mientras BirdNET se centra en identificar automáticamente lo que suena, otras aplicaciones ponen el foco en el aprendizaje activo por parte del usuario. Un buen ejemplo es Avefy, una app concebida como una especie de juego tipo «quiz» para entrenar el oído y mejorar la capacidad de reconocer cantos y reclamos por uno mismo.

El funcionamiento de Avefy se basa en presentar al usuario grabaciones organizadas por ecosistemas, lo que llaman «paisajes sonoros»: un bosque mediterráneo, una ribera, alta montaña, etc. Dentro de cada paisaje, van sonando distintas especies, y el usuario tiene que ir proponiendo qué aves cree que está escuchando. Con cada intento se ofrece retroalimentación, de modo que, poco a poco, el oído se va afinando y se consolidan los aprendizajes.

Este enfoque recuerda a antiguos materiales de entrenamiento para programas de seguimiento como SACRE, pero en formato actualizado y con más variedad de escenarios. Además del juego, Avefy incluye una guía de cantos dentro de la propia app, con grabaciones de todas las especies ibéricas (según lo que se ha podido comprobar), lo que permite consultar y repasar sonidos tanto en casa como, si se quiere, sobre el terreno.

Aprender en casa frente a identificar en el campo​


Si comparamos BirdNET con Avefy, se aprecia que responden a dos necesidades complementarias. BirdNET es, principalmente, una herramienta de identificación automática que se usa sobre todo en el campo: oyes un canto, grabas, y la app te sugiere qué puede ser. Avefy, en cambio, está pensada más como plataforma de entrenamiento y juego, ideal para aprender en casa o en momentos de calma, sin la presión de tener el pájaro enfrente.

En la práctica, usar ambas aplicaciones de forma combinada puede ser muy potente. BirdNET te ayuda a salir de dudas cuando estás en el campo y no identificas un canto, mientras que Avefy te va entrenando el oído para que, con el tiempo, dependas menos de la tecnología para reconocer sonidos comunes. Y, como extra, la guía de Avefy puede servir de referencia rápida, igual que las guías incluidas en otras plataformas como Merlin y eBird.

Merlin Bird ID: identificación por canto, foto y preguntas​


Otro actor clave en este panorama es Merlin Bird ID, también desarrollado por el Laboratorio de Ornitología de Cornell. Aunque se ha hecho muy popular por su función de identificación por canto, Merlin ofrece en realidad tres vías principales de identificación: por sonido, por fotografía y mediante un cuestionario guiado sobre el ave observada.

El modo de audio es muy similar en experiencia al de otros sistemas: el usuario pulsa el botón de grabación, mantiene el teléfono en silencio y espera a que la app escuche. Después, Merlin muestra una lista de especies que considera probables, dependiendo del canto y de la localización. Además, permite escuchar otras grabaciones de la misma especie para comparar matices, y los propios desarrolladores insisten en que sus sugerencias son solo un punto de partida: recomiendan siempre contrastar con las descripciones y los sonidos de ejemplo de la ficha de cada ave.

La función de identificación por imagen es otro de los puntos fuertes de Merlin. Basta con tomar una foto o elegirla del carrete, y la app intenta decir qué especie aparece en la fotografía. En pruebas realizadas por diferentes medios, fue capaz de identificar correctamente desde un cormorán grande en Madrid hasta un pelícano de dorso rosado en Senegal. Eso sí, como pasa con cualquier sistema automático, a veces se equivoca o no encuentra coincidencias cuando la imagen no es adecuada.

El tercer modo de Merlin es el cuestionario guiado, que resulta muy útil para personas con poca experiencia en identificación. La app hace preguntas sencillas sobre el color, el tamaño, la conducta (si estaba en el suelo, en el agua, posado en un árbol, en vuelo…), la ubicación geográfica y la fecha. Con esa información, cruza datos con su base de conocimiento y devuelve un conjunto de especies probables para que el usuario elija cuál encaja mejor.

Uso offline y paquetes regionales en Merlin​


Uno de los atractivos de Merlin Bird ID para quienes se mueven en zonas con mala cobertura es su capacidad para funcionar parcialmente sin conexión. La app permite descargar paquetes regionales de aves, organizados por zonas geográficas, que incluyen las fichas, sonogramas, mapas de distribución y sonidos de las especies habituales de cada área.

Gracias a estos paquetes, muchos de los recursos de la aplicación pueden utilizarse en entornos rurales o de montaña sin necesidad de estar conectados continuamente a internet. Esto no solo es práctico para excursionistas y ornitólogos aficionados, sino también para investigadores y voluntarios de programas de seguimiento que realizan conteos en zonas remotas, donde la cobertura móvil es irregular o inexistente.

Merlin está totalmente integrado con eBird, la gran plataforma global de ciencia ciudadana sobre aves. Dentro de eBird existe también un modo de quiz de identificación que, al igual que Avefy, permite practicar tanto con sonidos como con imágenes. En este caso, los usuarios pueden personalizar los desafíos según fechas y lugares concretos en lugar de por tipos de ecosistema, lo que ayuda a entrenar la identificación en contextos muy similares a los que se encontrarán en sus salidas de campo.

iNaturalist, Google Lens y la Búsqueda Visual del iPhone​


Aunque el foco de este artículo son los cantos de aves, conviene mencionar otras herramientas que, sin estar centradas exclusivamente en aves, se apoyan en inteligencia artificial para reconocer especies a partir de imágenes. iNaturalist, Google Lens y la Búsqueda Visual de iPhone son buenos ejemplos de cómo la IA se ha convertido en una especie de «biólogo de bolsillo» para cualquier persona curiosa.

iNaturalist nació como un proyecto académico en la Universidad de California, Berkeley, y hoy es una iniciativa conjunta con la Academia de Ciencias de California y la National Geographic Society. Su uso es muy simple: se hace una foto de la planta, animal u hongo que se quiere identificar y se sube a la aplicación. Automáticamente, el sistema sugiere, en cuestión de segundos, posibles especies basándose en modelos de visión por computador entrenados con millones de observaciones.

La gran fuerza de iNaturalist radica en su comunidad global de usuarios y expertos, que ayudan a corregir y afinar las identificaciones. Cada observación queda georreferenciada y fechada, creando así un gigantesco mapa de biodiversidad en tiempo casi real. Toda esa información se comparte con repositorios científicos como el GBIF (Sistema Global de Información sobre Biodiversidad), lo que convierte al proyecto en una fuente de datos de enorme valor para estudios de conservación y cambio global.

En el caso de la Búsqueda Visual del iPhone, Apple integra la IA directamente en el sistema operativo. Al abrir una foto, si el sistema detecta un elemento reconocible (planta, animal, monumento, obra de arte), se muestra un icono especial junto al botón de información. Al tocarlo, el usuario accede a información básica de la especie, imágenes similares y enlaces externos. Este tipo de reconocimiento se realiza en gran medida en el propio dispositivo, aprovechando la capacidad de cálculo de los chips modernos.

Google Lens cumple una función muy parecida en el ecosistema Android. Se puede usar como aplicación independiente o a través de la app de Cámara de muchos móviles. Lens analiza las imágenes, compara los objetos reconocidos con bases de datos visuales y asigna probabilidades a cada posible resultado. Si, por ejemplo, la IA considera con un 95 % de probabilidad que un perro es un pastor alemán y con un 5 % que es un corgi, solo mostrará la primera opción, al ser la más probable. Para plantas y animales, además de proponer el nombre, sugiere realizar una búsqueda rápida en Google para ampliar información.

Una base de datos global con más de 90.000 cantos anotados​


El salto cualitativo en identificación automática de cantos no sería posible sin datos de entrenamiento de alta calidad. En este sentido, un hito reciente ha sido la publicación de la primera base de datos mundial de cantos de aves anotados de forma detallada, liderada por el Centro de Ciencia y Tecnología Forestal de Cataluña (CTFC) y descrita en un data paper en la revista Ecology.

Esta base de datos reúne grabaciones realizadas en 72 localizaciones de todo el mundo, que abarcan más de 1.100 especies diferentes. La clave no es solo el volumen de datos, sino el hecho de que, en cada archivo, expertos ornitólogos locales han marcado manualmente el instante preciso en que canta cada especie, sumando más de 90.000 vocalizaciones etiquetadas. Ese nivel de detalle proporciona un material de altísimo valor para entrenar y evaluar algoritmos de reconocimiento acústico.

El conjunto de datos es de acceso abierto y está disponible en la plataforma Zenodo, lo que facilita que equipos de investigación de todo el mundo puedan usarlo tanto para mejorar herramientas existentes como BirdNET como para desarrollar modelos nuevos, especialmente para especies o regiones poco representadas hasta ahora. De hecho, esta base de datos ya ha sido utilizada para evaluar, a escala global, el rendimiento y los parámetros óptimos de ejecución de BirdNET, ayudando a afinar su comportamiento en distintos contextos.

Inteligencia artificial y monitorización de la biodiversidad​


La combinación entre observación de campo, grandes bases de datos abiertas e inteligencia artificial está cambiando la forma en que se monitoriza la biodiversidad. En un contexto de cambio climático acelerado y transformación de los ecosistemas, disponer de sistemas capaces de registrar y analizar de manera automática la presencia de especies es una ventaja enorme para la ciencia y la gestión ambiental.

Los sistemas automáticos no sustituyen a los ornitólogos, pero sí pueden multiplicar su capacidad de observación. Un conjunto de grabadores autónomos repartidos por un territorio, analizados con algoritmos como BirdNET u otros modelos derivados de bases de datos globales, permite generar series temporales continuas sobre qué especies están presentes, en qué momentos del año y con qué frecuencia relativa.

Este tipo de información es esencial para detectar a tiempo cambios en las poblaciones, desplazamientos en las áreas de distribución o la llegada de especies invasoras. Además, el carácter abierto y reproducible de los datos y modelos favorece una ciencia más transparente, donde otros equipos puedan comprobar resultados, proponer mejoras y adaptar las herramientas a nuevas realidades.

A medida que estas tecnologías se consolidan y se integran mejor en aplicaciones móviles y plataformas accesibles, es previsible que veamos un aumento en las herramientas de identificación de aves por canto que funcionen cada vez mejor en modo offline, descargando modelos y paquetes de datos directamente en el dispositivo. La clave estará en equilibrar la precisión con el tamaño de los modelos y las bases de datos locales, aprovechando tanto la potencia de los servidores remotos como la capacidad de cálculo de los móviles actuales.

Todo apunta a que, en los próximos años, escuchar un canto en mitad del monte y comprobar en cuestión de segundos qué especie es, con alta fiabilidad y sin necesidad de cobertura, será algo de lo más normal, gracias a la confluencia de proyectos como BirdNET, Merlin, Avefy, iNaturalist y las nuevas bases de datos globales de cantos que alimentan a la inteligencia artificial. Comparte esta información para que más personas conozcan del tema.

Continúar leyendo...