Descarga OSM one shot multispeaker - Descargar el código fuente OSM one shot multispeaker

OSM one shot multispeaker

Código Fuente de IA

1.0.0

Descargar

OSM: un múltiplo de un solo disparo

Declaración del problema

Los sistemas de texto a voz de múltiples altavoces (OS MS TTS) tienen como objetivo transformar el texto en voz con voz determinada por una pequeña muestra única. El principal problema aquí es reproducir la nueva voz invisible sin volver a capacitar la red. Hay un enfoque con tres etapas principales que se utiliza para resolver este problema. Los únicos para cada altavoz de voz, que revelan las características de la voz, se generan en la primera etapa ( codificador de altavoces ). En la segunda etapa ( sintetizador ), el texto se transforma en espectrograma MEL utilizando incrustaciones previamente obtenidas. Finalmente, el discurso se reproduce del espectrograma MEL con el vocoder . Pero hay falta de implementaciones con estas tres partes correctamente combinadas. Entonces, el objetivo de nuestro proyecto es crear un marco flexible para combinar estas partes y proporcionar módulos y métodos reemplazables en cada parte.

Desafíos principales

A estas alturas vemos los siguientes desafíos principales:

La solución a nuestro problema consta de tres subtareas, que ya tienen una excelente soluciones. Por lo tanto, las soluciones existentes para OS MS TTS son esencialmente una compilación de soluciones para estos problemas individuales, para las cuales hay muchas soluciones preparadas y bien implementadas. El principal desafío es hacer que el marco sea flexible y garantizar la compatibilidad de las piezas individuales.
Los métodos utilizados en cada subtarea difieren en el conjunto de parámetros y la naturaleza del algoritmo. Por lo tanto, será bastante difícil proporcionar una sola API.

Solución de línea de base

Elegimos la solución propuesta por los instructores como línea de base, que se puede encontrar aquí. Es la implementación de [1] realizada en Google en 2018. Aquí los autores usan el codificador del altavoz, presentado en [2], que genera un vector de incrustación de dimensión fija conocido como Vector D. En cuanto al sintetizador, usan el modelo basado en Tacotron 2 [3], mientras que un wavenet autoregresivo basado en Wavenet se usa como Vocoder [4]. La siguiente imagen tomada de [1] representa la descripción general del modelo:

Pros y contras

La clonación de la voz real contiene las realizaciones del codificador, Tacotron 2 y Wavernn. Toda la tubería descrita en [1], incluidos los pasos de preprocesamiento, también se implementa en este repositorio. Sin embargo, el proyecto no es lo suficientemente flexible. Más específicamente, en el estado actual no puede usarse como el marco para el sistema de texto a voz múltiple de un solo disparo, ya que no hay mecanismos convenientes para manipular con los tres módulos principales. Por ejemplo, el sistema TTS múltiple propuesto en [5] no se puede implementar fácilmente con la ayuda de la clonación de voz en tiempo real, ya que no hay puntos de extensibilidad que permitan ajustar la tubería para el nuevo método.

Nuestra mejora

Nuestro plan es usar la clonación de voz en tiempo real como punto de partida con la línea de base implementada. Introduciremos el diseño modular flexible del marco. Dicho enfoque nos ayudará a crear la API conveniente para usuarios externos que podrán utilizar nuestro marco para incorporar el sistema TTS de múltiples altavoces en sus productos. La API también permitirá a los usuarios personalizar los módulos y los pasos de la tubería sin cambiar el código fuente del marco si es necesario. Implementaremos varios codificadores de altavoces (LDE, TDNN) y también los agregaremos a nuestro marco.

Descripción general de la estructura del proyecto

Desde un punto más alto, nuestro proyecto consta de 3 elementos principales: codificador de altavoces, sintetizador, vocoder. Para cada uno de ellos, se implementa un gerente que permite acceder a los parámetros y realizar acciones estándar como inferencia y capacitación. Por encima de ellos, implementamos OS MS TTS Manager, que reúne las tres partes y le permite a uno hacer toda la tubería y producir discurso con la voz necesaria. Cada una de estas partes también consiste en subpartes elementales típicos para los elementos correspondientes. Se pueden describir de la siguiente manera:

Codador de altavoces : aquí la clase base es SpeakenEncodermanager, que permite entrenar e inferir el modelo. Además, ya hemos implementado la interfaz de preprocesamiento de audio WAV. Por lo tanto, se puede personalizar sus propias funciones de preprocesamiento de audio, que pueden diferir incluso para el mismo conjunto de datos. Además, se puede usar el modelo personalizado. Agregamos la función de preprocesamiento estándar y el modelo presentado en la clonación de voz en tiempo real
Synthesizer : aquí la clase base es SynthesizenManager, que permite entrenar e inferir el modelo. Además, la misma situación con las funciones de preprocesamiento, con una diferencia. Además del audio, uno también necesita procesar el texto. Por ahora, implementamos la función de preprocesamiento de texto y audio, ya que estas operaciones son necesarias durante la inferencia y la capacitación. La línea de base es de clonación de voz en tiempo real
Vocoder : Aquí la clase base es Vocodermanager, que permite entrenar, el modelo de vocoder de inferencia y establecer todos los estados que necesita. La línea de base es de clonación de voz en tiempo real

Resultados de la evaluación

En nuestro repositorio agregamos cuaderno, donde se puede cargar el audio de voz, el archivo .txt y producir discurso con voz clonada. A pesar de los pesos de los modelos previos a la aparición, se descargan automáticamente en la primera ejecución, el usuario aún puede descargar archivo aquí otras instrucciones están en el cuaderno aquí

Roles de los participantes

Nikolay diseñará la arquitectura modular, API para uso externo y tuberías de capacitación. GLEB implementará la pila de trabajo de modelos, documentos de escritura y ejemplos de uso.

Estructura de proyectos

 .
└── osms
    ├── __init__.py
    ├── common
    │   ├── __init__.py
    │   ├── configs
    │   │   ├── __init__.py
    │   │   ├── config.py
    │   │   └── main_config.yaml
    │   └── multispeaker.py
    ├── main.py
    ├── tts_modules
    │   ├── __init__.py
    │   ├── encoder
    │   │   ├── __init__.py
    │   │   ├── configs
    │   │   │   ├── AudioConfig.yaml
    │   │   │   ├── __init__.py
    │   │   │   ├── config.py
    │   │   │   └── dVecModelConfig.yaml
    │   │   ├── data
    │   │   │   ├── DataObjects.py
    │   │   │   ├── __init__.py
    │   │   │   ├── dataset.py
    │   │   │   ├── wav2mel.py
    │   │   │   └── wav_preprocessing.py
    │   │   ├── models
    │   │   │   ├── __init__.py
    │   │   │   └── dVecModel.py
    │   │   ├── speaker_encoder_manager.py
    │   │   └── utils
    │   │       ├── Trainer.py
    │   │       └── __init__.py
    │   ├── synthesizer
    │   │   ├── LICENSE.md
    │   │   ├── __init__.py
    │   │   ├── configs
    │   │   │   ├── __init__.py
    │   │   │   ├── config.py
    │   │   │   ├── hparams.py
    │   │   │   └── tacotron_config.yaml
    │   │   ├── data
    │   │   │   ├── __init__.py
    │   │   │   ├── audio.py
    │   │   │   ├── dataset.py
    │   │   │   └── preprocess.py
    │   │   ├── models
    │   │   │   ├── __init__.py
    │   │   │   └── tacotron.py
    │   │   ├── synthesize.py
    │   │   ├── synthesizer_manager.py
    │   │   ├── trainer.py
    │   │   └── utils
    │   │       ├── __init__.py
    │   │       ├── cleaners.py
    │   │       ├── logmmse.py
    │   │       ├── numbers.py
    │   │       ├── plot.py
    │   │       ├── symbols.py
    │   │       └── text.py
    │   ├── tts_module_manager.py
    │   └── vocoder
    │       ├── __init__.py
    │       ├── configs
    │       │   ├── __init__.py
    │       │   ├── config.py
    │       │   ├── hparams.py
    │       │   └── wavernn_config.yaml
    │       ├── data
    │       │   ├── __init__.py
    │       │   ├── dataset.py
    │       │   └── preprocess.py
    │       ├── models
    │       │   ├── __init__.py
    │       │   └── wavernn.py
    │       ├── utils
    │       │   ├── Trainer.py
    │       │   ├── __init__.py
    │       │   ├── audio.py
    │       │   ├── distribution.py
    │       │   └── gen_wavernn.py
    │       └── vocoder_manager.py
    └── utils
        └── __init__.py

Instalación

Ejecute pip3 install . Del directorio raíz.

Conjuntos de datos

Hemos implementado un procesamiento completo para el conjunto de datos de LibraSpeech para el codificador de altavoces, el sintetizador y el vocoder. Se puede descargar el conjunto de datos de LibraSpeech a través de este enlace. Además, para el codificador de altavoces implementamos la interfaz para usar el conjunto de datos personalizado. Uno necesita implementar funciones de interfaz PreprocessDataset , funciones de interfaz WavPreprocessor , funciones de interfaz WavPreprocessor o usar las implementadas.

Configuraciones

Para los modelos de referencia, las configuraciones predeterminadas se cargarán automáticamente. Para cambiarlos, se puede usar update_config(...) en osms/common/configs/config.py . Para cargar la configuración predeterminada, uno puede usar get_default_<module_name>_config(...) . Además, uno puede implementar sus propias configuraciones para usarlas para otros modelos.

Gerentes

Para trabajar con cada tres módulos, implementamos su propio gerente: SpeakerEncoderManager , SynthesizerManager , VocoderManager . Como gerente principal, implementamos MustiSpreakerManager que dan acceso a los tres gerentes. Uno puede usarlos para inferir todo el modelo TTS y entrenar cada módulos por separado o juntos. El ejemplo de uso se puede encontrar en el cuaderno.

Puntos de control

Los puntos de control de línea de base se descargan automáticamente en el directorio checkpoints con la creación del objeto 'multiespeaker'. Además, uno puede usar otros puntos de control mediante la actualización simple de config (cambiar ... checkpoint_dir_path, checkpoint_name).

Referencias

Ye Jia, Y. Zhang, Ron J. Weiss, Q. Wang, Jonathan Shen, Fei Ren, Z. Chen, P. Nguyen, R. Pang, I. López-Moreno e Y. Wu. Transferir el aprendizaje de la verificación del hablante a la síntesis de texto a voz de múltiples
Li Wan, Quan Wang, Alan Papir e Ignacio López Moreno. Pérdida generalizada de extremo a extremo para la verificación del orador,
Jonathan Shen, R. Pang, Ron J. Weiss, M. Schuster, Navdeep Jaitly, Z. Yang, Z. Chen, Yu Zhang, Yuxuan Wang, R. Skerry-Ryan, R. Saurous, Yannis Agiomyrgiannakis e Y. Wu. Síntesis de TTS natural mediante acondicionamiento de wavenet en predicciones de espectrograma MEL,
Aaron van den Oord, S. Dieleman, H. Zen, K. Simonyan, Oriol Vinyals, a. Graves, Nal Kalchbrenner, A. Senior y K. Kavukcuoglu. Wavenet: Modelo agenerativo para audio sin procesar,
Erica Cooper, Cheng-i Lai, Yusuke Yasuda, Fuming Fang, Xin Wang, Nanxin Chen y Junichi Yamagishi. Texto a voz múltiple a voz múltiple con inserción de altavoces neuronales de última generación.

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-08-22
tamaño 31.75MB
Proviene de Github

Aplicaciones relacionadas

Juego Disparo en zona muerta

2024-02-07
Una verdadera Waifu

2023-10-24
Héroes de tiro muerto

2022-08-31
Quemadura de tiro caliente

2022-08-18
Disparo en la oscuridad

2022-08-08
exo uno

2022-08-04

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo