Descargar audio2img - Descargar el código fuente de audio2img

audio2img

Otro código fuente

1.0.0

Descargar

audio2img

Este proyecto tiene como objetivo ajustar un modelo de codificador de audio WAV2VEC2BERT para generar incrustaciones de audio que se pueden usar en lugar del codificador de texto clip tradicional. Al integrar los incrustaciones de audio, podemos aprovechar las propiedades únicas de los datos de audio para desbloquear nuevas posibilidades para modelos de difusión estables .

? Modelo en la cara abrazada | Cuaderno de entrenamiento

Introducción

El audio contiene una gran cantidad de información que a menudo queda sin explotar, extendiendo mucho más allá de lo que normalmente imaginamos. Con el aumento de los modelos de difusión latente y sus impresionantes capacidades generativas, existe un creciente interés en explorar diversas técnicas de acondicionamiento. El enfoque más común implica el uso de codificadores de texto de clip (pre-entrenamiento de imagen de lenguaje contrastante) para acondicionar el modelo. Sin embargo, los datos de audio ofrecen una fuente de información rica y multifacética que puede mejorar significativamente el proceso de acondicionamiento.

Inferencia

Firework-show-short-64657.webm

pianos-by-jtwayne-7-174717.webm

Thunder_3-144891-b-9.webm

wafb_fill_acoustic_105_soundcity1-85457.webm

Proceso de capacitación

La idea central detrás de nuestro proceso de capacitación es lograr una alineación intermodal entre el audio y las integridades de texto utilizando una arquitectura de dos corrientes . Esto implica aprovechar el potente clipTextModel para generar embedidas de texto que sirven como etiquetas verdaderas para los incrustaciones de audio producidos por nuestro modelo WAV2VEC2Bert . Aquí hay una explicación detallada:

Arquitectura de dos transmisiones:
- Estruto de texto: usamos el clipTextModel para generar integridades de texto para entradas de texto dadas. Estas embedidas capturan información semántica rica y sirven como etiquetas de verdad de tierra .
- Transmisión de audio: nuestro modelo WAV2VEC2Bert usa el codificador de características convolucionales seguido de una red de transformadores para procesar las entradas de audio y generar incrustaciones de audio correspondientes.
Alineación de modalidad cruzada:
- Objecti: el objetivo principal de la capacitación es alinear los incrustaciones de audio con los incrustaciones de texto en un espacio de incrustación compartido . Esto asegura que las entradas de audio y texto semánticamente similares se mapearan entre sí.
-Función de pérdida: logramos esta alineación utilizando la pérdida de contraste que alienta al modelo a acercar los pares de audio de audio a juego mientras se separan las incrustaciones de pares no coincidentes.

Esto es similar a cómo se entrenó el modelo de clip original para alinear los pares de texto de imagen. La diferencia es que en el modelo de clip de OpenAI , la pérdida de contraste se calculó utilizando el token [CLS] , mientras que aplicaremos la pérdida de contraste en el nivel de secuencia .

Esta imagen puede explicar la lógica detrás de esta pérdida:

Texto alternativo

La biblioteca Transformers se utilizó para la capacitación. El punto de control "Facebook/W2V-Bert-2.0" se cargó como modelo inicial de petróleo . La preparación de datos, los detalles de capacitación y los hiperparámetros utilizados se pueden encontrar en el cuaderno Train_Me.ipynb :

DataSet: utilizamos el conjunto de datos NATERAW/FSD50K (base de datos Freesound 50K), que se puede encontrar en la cara abrazada , que consiste en eventos de sonido y sus descripciones correspondientes.
Adaptador: se agregó un adaptador convolucional en la parte superior de la arquitectura del transformador para reducir la dimensionalidad y coincidir con el tamaño de inclusión del texto del clip.

 model = Wav2Vec2BertModel . from_pretrained (
    "facebook/w2v-bert-2.0" ,
    add_adapter = True ,
    adapter_kernel_size = 3 ,
    adapter_stride = 2 ,
    num_adapter_layers = 2 ,
    layerdrop = 0.0 ,
    )

Implementación de la pérdida de contraste: podemos implementar la función de pérdida con Pytorch subclasificando la clase del entrenador y anulando la pérdida por defecto.

 def Contrastive_loss ( embeddings1 , embeddings2 , temperature = 0.15 ):
    cos_sim = torch . cosine_similarity ( embeddings1 . unsqueeze ( 1 ), embeddings2 . unsqueeze ( 0 ), dim = - 1 )
    cos_sim = cos_sim / temperature 
    labels = torch . arange ( embeddings1 . size ( 0 )). unsqueeze ( 1 ). repeat ( 1 , embeddings1 . size ( 1 )). to ( embeddings1 . device )    
    loss = F . cross_entropy ( cos_sim , labels )   
    return loss

class TrainBert ( Trainer ):
    def __init__ ( self , * args , ** kwargs ):
        super (). __init__ ( * args , ** kwargs )
    def compute_loss ( self , model , inputs , return_outputs = False ):
        labels = inputs . pop ( "text_embeddings" )
        outputs = model ( ** inputs )
        outputs = outputs . last_hidden_state
        loss = Contrastive_loss ( outputs , labels )
        outputs = ( loss , outputs )
        return outputs if return_outputs else loss

Métricas: Calculamos la distancia euclidiana , la similitud del coseno y el error cuadrático medio , y las usamos como métricas, pueden darnos una visión de qué tan bien está evolucionando el modelo para lograr la alineación.

NB: el tamaño de lotes es un hiperparámetro crucial para sintonizar, ya que define cuántas muestras negativas pasan al modelo.

Uso

Instalar dependencias:

      pip install -r requirements.txt

Descargar el modelo previamente:

CKPT 1728 o CKPT 2016

 Wav2Vec2BertModel . from_pretrained ( 'youzarsif/wav2vec2bert_2_diffusion' )

o

 Wav2Vec2BertModel . from_pretrained ( 'youzarsif/wav2vec2bert_2_diffusion_ckpt_1728' )

Difusión estable:

Siéntase libre de usar cualquier variación de difusión estable , control de control o modelos similares, siempre que utilicen el mismo codificador de clip .

 StableDiffusionPipeline . from_pretrained ( "stabilityai/stable-diffusion-2-1" )

Interfaz de Gradio:

python3 app.py

Configuración rápida

Construir y ejecutar directamente la imagen de Docker:

docker build -t app.py .
docker run -p 7860:7860 app.py

Mejoras potenciales

Durante el entrenamiento, se observó que el conjunto de datos utilizado estaba mal anotado y dependido de etiquetas genéricas. Utilizar un conjunto de datos más diverso y bien elaborado mejorará el rendimiento del modelo.

Además, debido a las limitaciones de recursos, se utilizó un pequeño adaptador de convolución. El uso de un adaptador más grande para que coincida con la longitud de la secuencia de clip Max puede mejorar el rendimiento del modelo, ya que permite que el modelo capture más información.