OSM one shot multispeaker Download - OSM one shot multispeaker Código -fonte Download

OSM one shot multispeaker

Código-Fonte de IA

1.0.0

Baixar

OSM: Multi-falante de um tiro

Declaração de problemas

Os sistemas de texto para fala em múltiplos falantes de um tiro de um Shot têm como objetivo transformar o texto em fala com voz determinada por uma pequena amostra única. O principal problema aqui é reproduzir a nova voz invisível sem recorrer a rede. Há uma abordagem com três estágios principais que são usados para resolver esse problema. Os únicos para cada orador de voz, que revelam as características da voz, são gerados no primeiro estágio ( codificador do alto -falante ). No segundo estágio ( sintetizador ), o texto é transformado em espectrograma MEL usando incorporações obtidas anteriormente. Finalmente, o discurso é reproduzido do espectrograma MEL com o vocoder . Mas há falta de implementações com essas três partes adequadamente combinadas. Portanto, o objetivo do nosso projeto é criar uma estrutura flexível para combinar essas peças e fornecer módulos e métodos substituíveis em cada parte.

Principais desafios

Até agora vemos os seguintes desafios principais:

A solução para o nosso problema consiste em três subtarefas, que já possuem ótimas soluções. Portanto, as soluções existentes para os Ms TTs são essencialmente uma compilação de soluções para esses problemas individuais, para os quais existem muitas soluções prontas e bem implementadas. O principal desafio é tornar a estrutura flexível e garantir a compatibilidade de peças individuais.
Os métodos utilizados em cada subtarefa diferem no conjunto de parâmetros e na natureza do algoritmo. Portanto, será bastante difícil fornecer uma única API.

Solução de linha de base

Escolhemos a solução proposta pelos instrutores como uma linha de base, que pode ser encontrada aqui. É a implementação de [1] fabricado no Google em 2018. Aqui os autores usam o codificador do alto-falante, apresentado em [2], que gera um vetor de incorporação de dimensão fixa conhecida como D-vetor. Quanto ao sintetizador, eles usam o modelo com base no tacotron 2 [3], enquanto uma base de wavenet automaticamente regressiva é usada como o vocoder [4]. A imagem a seguir tirada de [1] representa a visão geral do modelo:

Prós e contras

A clonagem de voz em tempo real contém as realizações do codificador, Tacotron 2 e Wavernn. Todo o pipeline descrito em [1], incluindo etapas de pré -processamento, também é implementado neste repositório. No entanto, o projeto não é flexível o suficiente. Mais especificamente, no estado atual, ele não pode ser usado como estrutura para um sistema de texto para fala de vários falantes de um tiro, pois não há mecanismos convenientes para manipular com os três módulos principais. Por exemplo, o sistema TTS multi-falante proposto em [5] não pode ser facilmente implementado com a ajuda da clonagem de voz em tempo real, pois não há pontos de extensibilidade que permitam ajustar o pipeline para o novo método.

Nossa melhoria

Nosso plano é usar a clonagem de voz em tempo real como ponto de partida na linha de base implementada. Introduziremos o design modular flexível da estrutura. Essa abordagem nos ajudará a criar a API conveniente para usuários externos que poderão usar nossa estrutura para incorporar o sistema TTS de vários falantes em seus produtos. A API também permitirá que os usuários personalizem módulos e etapas do pipeline sem alterar o código -fonte da estrutura, se necessário. Implementaremos vários codificadores de alto -falantes (LDE, TDNN) e os adicionaremos à nossa estrutura também.

Visão geral da estrutura do projeto

De um ponto alto, nosso projeto consiste em 3 elementos principais: codificador de alto -falante, sintetizador, vocoder. Para cada um deles, é implementado um gerente que permite acessar os parâmetros e executar ações padrão, como inferência e treinamento. Acima deles, implementamos o OS MS TTS Manager, que reúne todas as três partes e permite fazer todo o pipeline e produzir fala com a voz necessária. Cada uma dessas partes também consiste em sub-partes elementares típicas para os elementos correspondentes. Eles podem ser descritos da seguinte forma:

Encoder de alto -falante : Aqui a classe base é o SpeavencoderManager, que permite treinar e modelo de inferência. Além disso, já implementamos a interface de pré -processamento de áudio WAV. Portanto, pode -se personalizar suas próprias funções de pré -processamento de áudio, que podem diferir mesmo para o mesmo conjunto de dados. Além disso, o modelo personalizado pode ser usado. Adicionamos a função de pré-processamento padrão e o modelo apresentado em clonagem de voz em tempo real
Synthesizer : Aqui a classe base é o SynthesizerManager, que permite treinar e modelo de inferência. Além disso, a mesma situação com funções de pré -processamento, com uma diferença. Além do áudio, também é preciso processar o texto. Por enquanto, implementamos a função de pré -processamento de texto e áudio, pois essas operações são necessárias durante a inferência e o treinamento. A linha de base é de clonagem de voz em tempo real
Vocoder : Aqui a classe base é o vocodermanager, que permite treinar, modelo de vocoder de inferência e definir todos os estados de que precisa. A linha de base é de clonagem de voz em tempo real

Resultados da avaliação

Em nosso repositório, adicionamos notebook, onde se pode fazer upload do arquivo .txt File e produzir uma fala com voz clonada. Apesar dos pesos dos modelos pré -terem sido baixados automaticamente na primeira execução, o usuário ainda pode baixar o arquivo aqui, outras instruções estão no notebook aqui

Papéis dos participantes

Nikolay projetará a arquitetura modular, API para uso externo e pipeline de treinamento. O GLEB implementará a pilha de trabalho dos modelos, escreverá documentações e exemplos de uso.

Estrutura do projeto

 .
└── osms
    ├── __init__.py
    ├── common
    │   ├── __init__.py
    │   ├── configs
    │   │   ├── __init__.py
    │   │   ├── config.py
    │   │   └── main_config.yaml
    │   └── multispeaker.py
    ├── main.py
    ├── tts_modules
    │   ├── __init__.py
    │   ├── encoder
    │   │   ├── __init__.py
    │   │   ├── configs
    │   │   │   ├── AudioConfig.yaml
    │   │   │   ├── __init__.py
    │   │   │   ├── config.py
    │   │   │   └── dVecModelConfig.yaml
    │   │   ├── data
    │   │   │   ├── DataObjects.py
    │   │   │   ├── __init__.py
    │   │   │   ├── dataset.py
    │   │   │   ├── wav2mel.py
    │   │   │   └── wav_preprocessing.py
    │   │   ├── models
    │   │   │   ├── __init__.py
    │   │   │   └── dVecModel.py
    │   │   ├── speaker_encoder_manager.py
    │   │   └── utils
    │   │       ├── Trainer.py
    │   │       └── __init__.py
    │   ├── synthesizer
    │   │   ├── LICENSE.md
    │   │   ├── __init__.py
    │   │   ├── configs
    │   │   │   ├── __init__.py
    │   │   │   ├── config.py
    │   │   │   ├── hparams.py
    │   │   │   └── tacotron_config.yaml
    │   │   ├── data
    │   │   │   ├── __init__.py
    │   │   │   ├── audio.py
    │   │   │   ├── dataset.py
    │   │   │   └── preprocess.py
    │   │   ├── models
    │   │   │   ├── __init__.py
    │   │   │   └── tacotron.py
    │   │   ├── synthesize.py
    │   │   ├── synthesizer_manager.py
    │   │   ├── trainer.py
    │   │   └── utils
    │   │       ├── __init__.py
    │   │       ├── cleaners.py
    │   │       ├── logmmse.py
    │   │       ├── numbers.py
    │   │       ├── plot.py
    │   │       ├── symbols.py
    │   │       └── text.py
    │   ├── tts_module_manager.py
    │   └── vocoder
    │       ├── __init__.py
    │       ├── configs
    │       │   ├── __init__.py
    │       │   ├── config.py
    │       │   ├── hparams.py
    │       │   └── wavernn_config.yaml
    │       ├── data
    │       │   ├── __init__.py
    │       │   ├── dataset.py
    │       │   └── preprocess.py
    │       ├── models
    │       │   ├── __init__.py
    │       │   └── wavernn.py
    │       ├── utils
    │       │   ├── Trainer.py
    │       │   ├── __init__.py
    │       │   ├── audio.py
    │       │   ├── distribution.py
    │       │   └── gen_wavernn.py
    │       └── vocoder_manager.py
    └── utils
        └── __init__.py

Instalação

Execute pip3 install . do diretório raiz.

Conjuntos de dados

Implementamos o processamento completo para o conjunto de dados de librapech para codificador de alto -falante, sintetizador e vocoder. Pode -se baixar o conjunto de dados da librapechech por este link. Além disso, para o codificador de alto -falante, implementamos a interface para usar o conjunto de dados personalizado. É preciso implementar funções de interface PreprocessDataset , funções de interface WavPreprocessor , funções de interface WavPreprocessor ou usar as implementadas.

Configurações

Para modelos de linha de base, as configurações padrão serão carregadas automaticamente. Para alterá -los, pode -se usar update_config(...) em osms/common/configs/config.py . Para carregar a configuração padrão, pode -se usar get_default_<module_name>_config(...) . Além disso, pode -se implementar suas próprias configurações para usá -las para outros modelos.

Gerentes

Para trabalhar com cada três módulos, implementamos seu próprio gerente: SpeakerEncoderManager , SynthesizerManager , VocoderManager . Como gerente principal, implementamos MustiSpreakerManager , que dão acesso aos três gerentes. Pode -se usá -los para inferir todo o modelo TTS e treinar cada módulos separadamente ou juntos. O exemplo de uso pode ser encontrado no notebook.

Pontos de verificação

Os pontos de verificação da linha de base são baixados automaticamente no diretório checkpoints com a criação do objeto 'multispeaker'. Além disso, pode -se usar outros pontos de verificação por atualização simples de configuração (alteração ... verificação_dir_path, checkpoint_name).

Referências

Ye Jia, Y. Zhang, Ron J. Weiss, Q. Wang, Jonathan Shen, Fei REN, Z. Chen, p. Nguyen, R. Pang, I. Lopez-Moreno e Y. Wu. Transfira o aprendizado da verificação do alto-falante para a síntese de texto para fala multispica.
Li Wan, Quan Wang, Alan Papir e Ignacio Lopez Moreno. Perda de ponta a ponta generalizada para verificação de alto-falante,
Jonathan Shen, R. Pang, Ron J. Weiss, M. Schuster, Navdeep Jaitly, Z. Yang, Z. Chen, Yu Zhang, Yuxuan Wang, R. Skerry-Ryan, R. Saurous, Yannis Agiomyrgiannakis e Y. Wu. Síntese natural de TTS, condicionando a wavenet em previsões de espectrograma MEL,
Aaron van den Oord, S. Dieleman, H. Zen, K. Simonyan, Oriol Vinyals, a. Graves, Nal Kalchbrenner, A. Senior e K. Kavukcuoglu. WaveNet: modelo agerativo para áudio bruto,
Erica Cooper, Cheng-i Lai, Yusuke Yasuda, Fuming Fang, Xin Wang, Nanxin Chen e Junichi Yamagishi. Zero Shot multi-falante texto em fala com incorporações neurais de última geração.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-08-22
tamanho 31.75MB
Vindo de Github

Aplicativos Relacionados

Jogo Tiro na Zona Morta

2024-02-07
Um Verdadeiro Waifu

2023-10-24
Heróis do tiro morto

2022-08-31
Queimadura de tiro quente

2022-08-18
Filmado no escuro

2022-08-08
Exo Um

2022-08-04

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos