Ferramentas de clonagem de voz
1. Documentação de clonagem de voz TTS
Descrição
Este script executa a síntese de texto em fala usando a biblioteca TTS (texto em fala) com dois modelos distintos: XTTS v2.0.2 e tartaruga. O script também inclui uma função utilitária para converter arquivos MP3 em arquivos WAV segmentados.
Pré -requisitos
Antes de executar o script, verifique se a biblioteca TTS está instalada usando o seguinte comando:
pip install TTS==0.22.0 transformers==4.37.2 torch torchaudio soundfile librosa
Execução
python tortoise_TTS_local_best.py
Tarefas
XTTS v2.0.2 Síntese:
- Utiliza o modelo XTTS v2.0.2 da biblioteca Coqui TTS.
- Executa a síntese de texto em fala com o texto de entrada especificado.
- Salva o áudio sintetizado em arquivos WAV, com e sem divisão de frases.
MP3 para conversão WAV
- Converte um arquivo MP3 de entrada em arquivos WAV segmentados sem usar a biblioteca PyDub.
- Segmenta o áudio em intervalos de 10 segundos e os salva como arquivos WAV individuais (necessários para a tartaruga).
Descrição da síntese do modelo de tartaruga:
- Utiliza o modelo de tartaruga da Biblioteca Coqui TTS para síntese de alta qualidade.
- Carrega o modelo de tartaruga pré-treinado e sintetiza a fala com base no texto de entrada.
- Salva o áudio sintetizado como um arquivo WAV.
Informações adicionais
O XTTS v2.0.2 é sugerido por sua velocidade e qualidade razoável. A tartaruga oferece a melhor qualidade, mas tem um tempo de inferência mais longo.
Notas
- Verifique se as dependências estão instaladas e os caminhos de arquivo são ajustados de acordo.
- Os URLs nos comentários fornecem mais informações sobre os modelos e configurações.
- Sinta -se à vontade para modificar o script com base em requisitos específicos e garantir que os ajustes necessários sejam feitos para arquivar caminhos e dependências para execução bem -sucedida.
2. Documentação do Analisador de Modelo TTS
Descrição
Esse script analisa os modelos de texto em fala (TTS) disponíveis na biblioteca TTS, concentrando-se especificamente em seus recursos de suporte ao idioma e vocoder. Ele categoriza os modelos com base em:
- Multi-idioma vs. somente em inglês : se o modelo suporta vários idiomas ou apenas o inglês.
- Vocoder em inglês personalizado vs. padrão : se o modelo possui um vocoder em inglês personalizado que permite a clonagem de voz ou um vocoder padrão que não possui.
O script também rastreia o número de modelos com erros e aqueles que são ignorados devido a razões específicas (por exemplo, modelos conhecidos por causa de erro).
Quebra de código
Pré -requisitos
Antes de executar o script, verifique se a biblioteca TTS está instalada usando o seguinte comando:
Execução
python TTS_download_and_test_all_models.py
Saída
O script gera informações sobre modelos de vários idiomas com um vocoder em inglês, modelos em inglês com vocoders personalizados, modelos de vários idiomas com vocoders ingleses padrão e modelos em inglês com vocoders ingleses padrão. Além disso, identifica modelos que suportam idiomas não ingleses, modelos com erros e modelos que devem ser ignorados.
Explicação do script
O script executa as seguintes tarefas:
Importa as bibliotecas necessárias (TTS, Time, OS).
Configura um cronômetro para medir o tempo de execução do script.
Define um texto de amostra para a síntese de fala.
Inicializa os contadores e listas para várias categorias de modelos.
Iterado através de todos os modelos TTS disponíveis.
Downloads e carregam cada modelo para executar diferentes tarefas de texto em fala, categorizando-os com base no suporte ao idioma e nos tipos de vocoder.
Imprime os resultados, incluindo a contagem e os nomes dos modelos em cada categoria, juntamente com quaisquer erros encontrados durante o processo.
Exibe o número total de modelos verificados e o tempo de execução do script.
Executa uma verificação de afirmação para garantir a contagem correta dos modelos.
Fornece um exemplo de uso do TTS para fala em fala com um modelo multi-falante e multilíngue.
Notas
Alguns modelos podem ser ignorados devido a erros ou outros motivos (especificados no código). O script também inclui um exemplo para o texto em fala grego em Colab, usando um modelo específico.
Informações adicionais
- Biblioteca TTS: https://github.com/mozilla/tts
- Documentação TTS: https://tts.readthedocs.io/
Sinta -se à vontade para modificar o script conforme necessário para o seu caso de uso específico ou integrá -lo aos seus projetos para análise do modelo TTS.
3. Clone de voz usando repositório oficial de tartaruga
Visão geral
Este script demonstra o uso do sistema TTS de tartaruga (texto em fala) para gerar fala a partir do texto de entrada. O script utiliza a biblioteca TTS TTS de tartaruga e fornece instruções para a instalação. O discurso gerado é salvo como um arquivo WAV.
Instalação
git clone https://github.com/neonbjb/tortoise-tts.git
cd tortoise-tts
pip install -r requirements.txt
pip install librosa einops rotary_embedding_torch omegaconf pydub inflect
python setup.py install
Uso
- Substitua o caminho na variável de voz pelas amostras de voz do falante desejado.
- Opcionalmente, modifique a variável de texto para especificar o texto de entrada desejado.
- Execute o script com
python tortoise_API.py para executar TTS de tartaruga e salve o discurso gerado como um arquivo WAV.
Descrição da tarefa
Importar as bibliotecas necessárias:
- Importações necessárias bibliotecas, incluindo Torchaudio, Tortoise.api, Tortoise.utils e OS.
Inicialize TTS TTS:
- Inicializa a tartaruga TTS usando o Tortoise.api.TextTosPeech.
- Opcionalmente, permite o DeepSpeed para um desempenho mais rápido (comentado, pois pode ser mais lento na prática).
Especifique o texto de entrada:
- Define o texto de entrada a ser convertido para a fala.
Escolha predefinição e voz:
- Seleciona um modo predefinido para determinar a qualidade da saída ("Ultra_fast", "Fast", "Standard" ou "High_quality").
- Escolhe uma voz específica, fornecendo o caminho para as amostras de voz do falante.
Clipes de referência de carga:
- Carrega clipes de áudio de referência do caminho de voz escolhido.
Realize TTS com tartaruga:
- Utiliza TTS de tartaruga para gerar fala a partir do texto de entrada.
- Salva o discurso gerado no formato WAV.
Informações adicionais
- Os downloads de scripts necessários para os modelos do hub de modelo HUGGING FACE (HF).
- Ajuste os parâmetros como predefinição e voz de acordo com suas preferências.
- O áudio gerado é salvo como 'gerado_hq_faceswap.wav' no diretório especificado.
4. Opus para conversão de MP3 (para clonagem de gravações do WhatsApp)
Visão geral
Este script facilita a conversão de arquivos de áudio Opus em formato MP3. Inclui funções para ler arquivos Opus, convertê -los em MP3 e combinar vários arquivos MP3 em um único arquivo. O script fornece flexibilidade, permitindo que os usuários especifiquem pastas de entrada e saída.
Parâmetros
opus_folder: caminho para a pasta que contém arquivos OPUS.
mp3_output_folder: caminho para salvar arquivos MP3 individuais.
combined_output_folder: caminho para salvar o arquivo MP3 combinado.
O script cria pastas de saída se elas não existirem.
Pré -requisitos
Tarefas
- Leia o arquivo Opus:
- Lê arquivos OPUS usando a biblioteca Soundfile.
- Retorna uma matriz Numpy e a taxa de amostragem.
- Converter opus em mp3
- Utiliza a função read_opus para ler arquivos Opus.
- Converte o Opus em MP3 usando a mesma taxa de amostra.
- Salva o arquivo MP3 na pasta de saída especificada.
- Converter arquivos Opus
- Itera através de arquivos Opus em uma pasta e converte cada um em mp3.
- Retorna uma lista de nomes de arquivos MP3 salvos.
- Combine arquivos MP3
- Combina arquivos MP3 individuais em um.
- Salva o arquivo MP3 combinado na pasta de saída especificada.
5. Bark Google Colab (não muito bom)
Visão geral
Este notebook Jupyter demonstra o processo de clonagem de uma voz usando o sistema de clones de voz da casca. Envolve a montagem do Google Drive para acessar amostras de áudio para clonagem, instalar as bibliotecas necessárias, carregar modelos, gerar tokens semânticos e, finalmente, usar esses tokens para clonagem de voz.
Tarefas
Mount Google Drive:
- Monta o Google Drive para acessar a pasta que contém amostras de voz para clone.
Definir parâmetros:
- Define parâmetros como o caminho para o arquivo de áudio, o nome da voz e o caminho de saída para salvar os prompts de voz clonados.
Instale e importe bibliotecas:
- Instala e importa as bibliotecas necessárias, Pytorch, Numpy e outras.
Instale a casca com clone de voz:
- Instala a casca com biblioteca de clone de voz no repositório Github fornecido.
Modelos de carga e inicialize Hubert:
- Carrega os modelos necessários e inicializa o gerente de Hubert para extração semântica de token.
Carregar e processar áudio:
- Carrega o arquivo de áudio e o converte para processamento adicional.
- Extrai vetores e tokens semânticos usando o modelo Hubert.
Codificar e salvar prompts:
- Codifica os quadros de áudio usando o codec.
- Economiza instruções finas, grossas e semânticas como matrizes Numpy.
Gerar áudio usando a casca:
- Modelos de casca de pré -carga para texto, grosso, geração fina e codec.
- Gera áudio usando solicitações de texto, avisos semânticos e instruções do histórico.
Jogue e economize áudio gerado:
- Reproduz o áudio gerado usando o áudio do Ipython.
- Opcionalmente, salva o áudio gerado como um arquivo WAV.
Tempo de execução total:
- Exibe o tempo total necessário para executar o script.
Uso do script
- Verifique se o Google Drive está montado com acesso à pasta de amostras de voz desejada.
- Modifique parâmetros como
audio_filepath , voice_name e output_path de acordo com sua configuração. - Execute o script para clonar a voz, gerar áudio e, opcionalmente, salve a saída.
Informações adicionais
- O script instala e usa a casca com biblioteca de clone de voz do repositório Github fornecido.
- Ajuste os caminhos, parâmetros e avisos conforme necessário para o seu projeto de clonagem de voz.
- O áudio gerado pode ser reproduzido diretamente ou salvo como um arquivo WAV.
- Verifique se as dependências necessárias estão instaladas e configuradas corretamente.
6. Coqui tts chamando API (não existe mais - não pode ser usado)
Visão geral
Este script mostra o processo de clonar uma voz usando a API Coqui TTS. Envolve a importação de bibliotecas necessárias, fazendo chamadas de API para clonar uma voz de um arquivo de áudio e gerar texto em fala usando a voz clonada.
Tarefas
Bibliotecas de importação:
- Importações necessárias bibliotecas, incluindo
requests para fazer chamadas de API.
Definir parâmetros:
- Define parâmetros como o caminho para o arquivo de áudio de entrada, o caminho para salvar o novo arquivo de áudio e o texto a ser lido.
Ligue para a API Coqui TTS para clonagem de voz:
- Chama a API do Coqui TTS para clonar uma voz do arquivo de áudio fornecido.
- Extrai o ID de voz da voz clonada para o texto em fala subsequente.
Ligue para a API Coqui TTS para texto em fala:
- Chama a API do Coqui TTS para converter o texto especificado em fala usando a voz clonada.
- Recupera o URL de áudio do discurso gerado.
Baixe e salve áudio:
- Downloads o arquivo de áudio gerado a partir do URL fornecido.
- Salva o arquivo de áudio no caminho especificado.
Uso do script
- Forneça o caminho para o arquivo de áudio de entrada (
path_audio ), o caminho para salvar o novo arquivo de áudio ( save_path ) e o texto a ser lido ( text_to_read ). - Obtenha a chave da API necessária no site da Coqui TTS e substitua o espaço reservado nos
headers pela chave real. - Execute o script para clonar a voz e gerar texto em fala.
Informações adicionais
- O script usa a API do Coqui TTS para clonagem de voz e texto em fala.
- Ajuste os parâmetros e substitua a tecla API para se adequar ao seu caso de uso específico.
- Certifique -se de cumprir as políticas de uso da API do Coqui TTS.
- Os arquivos de áudio baixados são salvos localmente, conforme especificado em
save_path .