Riffusion es un sistema de aprendizaje automático Stable Diffusion adaptado para síntesis musical
Se dio a conocer el lanzamiento de un nuevo proyecto llamado «Riffusion» que desarrolla una variante del sistema de aprendizaje automático Stable Diffusion adaptado para generar música en lugar de imágenes. La música se puede sintetizar según una plantilla sugerida o una descripción de texto en lenguaje natural.
Los componentes de síntesis de música están escritos en Python utilizando el marco PyTorch y están disponibles bajo la licencia MIT.
El proyecto es interesante porque sigue utilizando los modelos de «texto a imagen» e «imagen a imagen» para la generación de música, pero manipula los espectrogramas como si fueran imágenes.
En otras palabras, Stable Diffusion clásico no se basa en fotografías e imágenes, sino en imágenes de espectrogramas que reflejan el cambio en la frecuencia y la amplitud de la onda de sonido a lo largo del tiempo. En consecuencia, también se forma un espectrograma en la salida, que luego se convierte en una representación de audio.
Este es el modelo de difusión estable v1.5 sin modificaciones, solo ajustado en imágenes de espectrogramas emparejados con texto. El procesamiento de audio ocurre aguas abajo del modelo.
Puede generar infinitas variaciones de un aviso variando la semilla. Todas las mismas interfaces de usuario web y técnicas como img2img, inpainting, indicaciones negativas e interpolación funcionan de manera inmediata.
Espectrogramas
Un espectrograma de audio es una forma visual de representar el contenido de frecuencia de un clip de sonido. El eje x representa el tiempo y el eje y representa la frecuencia. El color de cada píxel da la amplitud del audio en la frecuencia y el tiempo dado por su fila y columna.
Se menciona que el método también se puede utilizar para modificar composiciones de sonido existentes y síntesis de música de muestra, similar a la modificación de imágenes en Stable Diffusion.
Por ejemplo, la generación puede establecer espectrogramas de muestra con un estilo de referencia, combinar diferentes estilos, realizar una transición suave de un estilo a otro o realizar cambios en un sonido existente para resolver problemas como aumentar el volumen de instrumentos individuales, cambiar el ritmo y sustitución de instrumentos.
El STFT es invertible, por lo que el audio original se puede reconstruir a partir de un espectrograma. Sin embargo, las imágenes del espectrograma de nuestro modelo solo contienen la amplitud de las ondas sinusoidales y no las fases, porque las fases son caóticas y difíciles de aprender. En su lugar, usamos el algoritmo Griffin-Lim para aproximar la fase al reconstruir el clip de audio.
Los patrones también se utilizan para generar composiciones de larga duración, compuestas por una serie de pasajes próximos entre sí, que varían ligeramente con el tiempo. Los fragmentos generados por separado se combinan en un flujo continuo interpolando los parámetros internos del modelo.
Los contenedores de frecuencia en nuestro espectrograma usan la escala Mel , que es una escala perceptiva de tonos que los oyentes juzgan que tienen la misma distancia entre sí.
A continuación se muestra una imagen dibujada a mano interpretada como un espectrograma y convertida a audio. Reprodúzcalo para tener una idea intuitiva de cómo funcionan. Observe cómo puede escuchar los tonos de las dos curvas en la mitad inferior y cómo las cuatro líneas verticales en la parte superior producen ritmos similares a un sonido de charles.
Para la creación de un espectrograma a partir del sonido se utiliza una transformada de Fourier (una transformación matemática empleada para transformar señales entre el dominio del tiempo y el dominio de la frecuencia). Al recrear el sonido a partir de un espectrograma, existe un problema con la determinación de la fase (solo la frecuencia y la amplitud están presentes en el espectrograma), para cuya reconstrucción se utiliza el algoritmo de aproximación de Griffin-Lim.
El enlace con la interfaz se implementa en el lenguaje TypeScript y también se distribuye bajo la licencia MIT. Los modelos entrenados se publican bajo la licencia permisiva Creative ML OpenRAIL-M para uso comercial.
Si quieres conocer más al respecto, puedes consultar los detalles en el siguiente enlace.
Continúar leyendo...