xtts2 ui Download - xtts2 ui do download do código fonte

xtts2 ui

Código-Fonte de IA

1.0.0

Baixar

XTTS-2-UI: uma interface de usuário para clonagem de voz baseada em texto XTTS-2

Este repositório contém o código essencial para clonar qualquer voz usando apenas texto e uma amostra de áudio de 10 segundos da voz de destino. XTTS-2-UI é simples de configurar e usar. Exemplo de resultados?

Funciona em 16 idiomas e possui gravação/upload de voz em construção. NOTA: Não espere qualidade do nível de EL, ainda não está lá.

Modelo

O modelo usado é tts_models/multilingual/multi-dataset/xtts_v2 . Para obter mais detalhes, consulte o Face Hugging-XTTS-V2 e sua versão específica XTTS-V2 versão 2.0.2.

Índice

XTTS-2-UI: uma interface de usuário para clonagem de voz baseada em texto XTTS-2
- Modelo
- Índice
- Configurar
- Inferência
- DataSet de Voices de destino
- Exemplos de áudio Exemplos:
- Suporte ao idioma
- Notas
- Créditos

Configurar

Para configurar este projeto, siga estas etapas em um terminal:

Clone o repositório

Clone o repositório da sua máquina local.

git clone https://github.com/pbanuru/xtts2-ui.git
cd xtts2-ui

Crie um ambiente virtual:
- Execute o seguinte comando para criar um ambiente virtual do Python:
```
python -m venv venv
```
- Ative o ambiente virtual:
  - Windows:
```
 # cmd prompt
venv S cripts a ctivate
```
    ou
```
 # git bash
source venv/Scripts/activate
```
  - Linux/Mac:
```
 source venv/bin/activate
```
Instale Pytorch:
- Se você tiver uma GPU habilitada para Nvidia CUDA, escolha o comando de instalação apropriado do Pytorch:
  - Antes de instalar o Pytorch, verifique sua versão CUDA em execução:
```
nvcc --version
```
  - Para Cuda 12.1:
```
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
```
  - Para Cuda 11.8:
```
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
```
- Se você não tiver uma GPU habilitada para CUDA, siga as instruções no site da Pytorch para instalar a versão apropriada do Pytorch para o seu sistema.
Instale outros pacotes necessários:
- Instale dependências diretas:
```
pip install -r requirements.txt
```
- Atualize o pacote TTS para a versão mais recente:
```
pip install --upgrade TTS
```

Depois de concluir essas etapas, sua configuração deve estar completa e você pode começar a usar o projeto.

Os modelos serão baixados automaticamente após o primeiro uso.

Baixar caminhos:

MacOS: /Users/USR/Library/Application Support/tts/tts_models--multilingual--multi-dataset--xtts_v2
Windows: C:Users YOUR-USER-ACCOUNT AppDataLocalttstts_models--multilingual--multi-dataset--xtts_v2
Linux: /home/$ {User }/.local/share /home/${USER}/.local/share/tts/tts_models--multilingual--multi-dataset--xtts_v2 /tts_models--multilingual--multi-dataset --tts_v2

Inferência

Para executar o aplicativo:

 python app.py
OR
streamlit run app2.py

Ou você também pode ser executado a partir do próprio terminal, fornecendo textos de entrada de amostra em textos.json e gerar vários áudios com vários alto -falantes (pode ser necessário ajustar no appminal.py)

 python appTerminal.py

No uso inicial, você precisará concordar com os termos:

 [XTTS] Loading XTTS...
 > tts_models/multilingual/multi-dataset/xtts_v2 has been updated, clearing model cache...
 > You must agree to the terms of service to use this model.
 | > Please see the terms of service at https://coqui.ai/cpml.txt
 | > "I have read, understood and agreed to the Terms and Conditions." - [y/n]
 | | >

Se o seu modelo estiver baixando novamente cada execução, consulte a edição 4723 no GitHub.

DataSet de Voices de destino

O conjunto de dados consiste em uma única pasta denominada targets , pré-populada com várias vozes para fins de teste.

Para adicionar mais vozes (se você não quiser passar pela GUI), crie um arquivo WAV de 24kHz de aproximadamente 10 segundos e coloque -o na pasta targets . Você pode usar o YT-DLP para baixar uma voz do YouTube para clonagem:

 yt-dlp -x --audio-format wav "https://www.youtube.com/watch?"

Exemplos de áudio Exemplos:

Linguagem	Link de amostra de áudio
Inglês	▶ ️
russo	▶ ️
árabe	▶ ️

Suporte ao idioma

Árabe, chinês, tcheco, holandês, inglês, francês, alemão, húngaro, italiano, japonês (ver configuração), coreano, polonês, português, russo, espanhol, turco

Notas

Se você deseja selecionar japonês como idioma de destino, deve instalar um dicionário.

 # Lite version
pip install fugashi[unidic-lite]

ou para um processamento mais sério:

 # Full version
pip install fugashi[unidic]
python -m unidic download

Mais detalhes aqui.

Créditos

Fortemente baseado em https://github.com/kanttouchthis/text_generation_webui_xtts/

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-09-14
tamanho 3.46MB
Vindo de Github

Aplicativos Relacionados

Seelen UI

2024-11-11
RVC v2 UI

2024-11-10
ps ui

2024-11-07
UI

2024-11-06
UI de pudim

2024-09-16
IU nova

2009-06-03

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos