Download de MeloTTS.cpp - MeloTTS.cpp download de código fonte

MeloTTS.cpp

Código-Fonte de IA

1.0.0

Baixar

MELOTTS.CPP

<Inglês | 简体中文 | 繁體中文>

Este repositório oferece uma implementação C ++ da Melotts, que é uma biblioteca de alta qualidade e falsificação de texto em fala (TTS) lançada pelo Myshell.ai que suporta inglês, chinês (misturado ao inglês) e vários outros idiomas. Essa implementação é totalmente integrada ao OpenVino, suportando implantação perfeita nos dispositivos CPU, GPU e NPU. Atualmente, este repositório suporta apenas o chinês misturado ao inglês. O suporte ao modelo em inglês está chegando a seguir.

Design de pipeline

O design do pipeline é amplamente consistente com a versão ORIGNAL Pytorch, compreendendo três modelos (Bert, TTS e DeepFilternet), com o DeepFilternet adicionado como um componente adicional.

Pipeline Design

Legenda / Terminologia

Tokenizer e Bert: O modelo Tokenizer e Bert são bert-base-multilingual-uncased para chinês e bert-base-uncased para inglês
G2P: Conversão de grafema em phonema
Telefones e tons: representados como pinyin com quatro tons para chinês e fonemas com marcas de estresse para o inglês
Tone_sandi: classe usada para lidar com cenários chineses, corrigindo tokenização e telefones
DeepFilternet: Usado para denoising (ruído de fundo introduzido pela quantização int8)

Tabela de compatibilidade com dispositivo de modelo

A tabela abaixo descreve os dispositivos suportados para cada modelo:

Nome do modelo	Suporte da CPU	Suporte à GPU	Suporte da NPU
Bert (pré -processamento)	✅	✅	✅
TTS (inferência)	✅	✅
DeepFilternet (pós-processamento)	✅	✅	✅

Guia de instalação e execução

1. Baixe o pacote OpenVino C ++

Para baixar o pacote OpenVino C ++ para Windows, consulte o seguinte link: Instale o OpenVino for Windows. Para o OpenVino 2024.5 no Windows, você pode executar a linha de comando no prompt de comando (CMD).

 curl -O https://storage.openvinotoolkit.org/repositories/openvino/packages/2024.5/windows/w_openvino_toolkit_windows_2024.5.0.17288.7975fa5da0c_x86_64.zip --ssl-no-revoke
tar -xvf w_openvino_toolkit_windows_2024.5.0.17288.7975fa5da0c_x86_64.zip

Para o Linux, você pode baixar o pacote C ++ deste link: Instale o OpenVino for Linux. Para o OpenVino 2024.5 no Linux, basta fazer o download de https://storage.openvinotoolkit.org/repositories/openvino/packages/2024.5/linux e descompacte o pacote.

Para versões adicionais e mais informações sobre o OpenVino, visite a página Geral do Kit Openvino de Ferramentas Openvino: OpenVino Toolkit.

2. Clone o repositório

 git lfs install
git clone https://github.com/apinge/MeloTTS.cpp.git

3. Construa e corra

3.1 Windows Construa e executa

 <OpenVINO_DIR>setupvars.bat
cd MeloTTS.cpp
cmake -S . -B build && cmake --build build --config Release
.buildReleasemeloTTS_ov.exe --model_dir ov_models --input_file inputs.txt  --output_file audio.wav

3.2 Build and Run Linux

 source <OpenVINO_DIR>/setupvars.sh
cd MeloTTS.cpp 
cmake -S . -B build && cmake --build build --config Release
./build/meloTTS_ov --model_dir ov_models --input_file inputs.txt --output_file audio.wav

3.3 Habilitando e desativando DeepFilternet

Atualmente, a funcionalidade DeepFilternet é suportada apenas no Windows e é usada para filtrar o ruído de modelos quantizados INT8. Por padrão, ele está ativado, mas você pode habilitá -lo ou desativá -lo durante o estágio CMake usando a opção -DUSE_DEEPFILTERNET .

Por exemplo, para desativar o recurso, você pode usar a seguinte linha durante o processo de geração de cmake:

 cmake -S . -B build -DUSE_DEEPFILTERNET=OFF

Para mais informações, consulte DeepFilternet.cpp.

4. Descrição dos argumentos

Você pode usar run_tts.bat ou run_tts.sh como scripts de amostra para executar os modelos. Abaixo estão os significados de todos os argumentos que você pode usar com estes scripts:

--model_dir : Especifica a pasta que contém os arquivos do modelo, arquivos de dicionário e arquivos de recursos de terceiros, que é a pasta ov_models dentro do repositório. Pode ser necessário ajustar o caminho relativo com base no seu diretório de trabalho atual.
--tts_device : Especifica o dispositivo OpenVino a ser usado para o modelo TTS. Os dispositivos suportados incluem CPU e GPU (padrão: CPU).
--bert_device : especifica o dispositivo Openvino a ser usado para o modelo BERT. Os dispositivos suportados incluem CPU, GPU e NPU (padrão: CPU).
--nf_device : Especifica o dispositivo Openvino a ser usado para o modelo DeepFilternet. Os dispositivos suportados incluem CPU, GPU e NPU (padrão: CPU).
--input_file : especifica o arquivo de texto de entrada a ser processado. Verifique se o texto está no formato UTF-8 .
--output_file : especifica o arquivo de áudio de saída *.WAV a ser gerado.
--speed : especifica a velocidade do áudio de saída. O padrão é 1.0.
--quantize : indica se deve usar um modelo quantizado INT8. O padrão é falso, o que significa que um modelo FP16 é usado por padrão.
--disable_bert : indica se deve desativar a inferência do modelo BERT. O padrão é falso.
--disable_nf : indica se deve desativar a inferência do modelo DeepFilternet (padrão: false).
--language : especifica o idioma para TTS. O idioma padrão é chinês ( ZH ).

Suporte ao dispositivo NPU

Os modelos Bert e DeepFilternet na NPU suportam o dispositivo de inferência, utilizando as NPUs integradas no lago Meteor e no lago lunar.

Abaixo estão os métodos para ativar esse recurso e os detalhes de uso:

Clique aqui para expandir/recolher o conteúdo

Como construir

-DUSE_BERT_NPU=ON

 cmake -DUSE_BERT_NPU=ON -B build -S .

Como definir argumentos

--bert_device NPU

--nf_device NPU

 buildReleasemeloTTS_ov.exe --bert_device NPU --nf_device NPU --model_dir ov_models --input_file inputs.txt  --output_file audio.wav

Versões suportadas

Sistema operacional : Windows, Linux
Arquitetura da CPU : Metor Lake, Lunar Lake e mais Intel CPUs
Arquitetura GPU : Intel® Arc ™ Graphics (Intel XE, incluindo IGPU)
Arquitetura da NPU : NPU 4, NPU em Meteor Lake ou Lunar Lake
Versão OpenVino :> = 2024.4
Versão C ++ :> = C ++ 20

Se você estiver usando um notebook para PC AI com Windows, os drivers GPU e NPU são normalmente pré-instalados. No entanto, os usuários do Linux ou os usuários do Windows que preferem atualizar para os drivers mais recentes devem seguir as diretrizes abaixo:

Para GPU : Se estiver usando a GPU, consulte as configurações do Intel® Processor Graphics (GPU) com o OpenVino ™ para instalar o driver GPU.
Para NPU : Se estiver usando a NPU, consulte o dispositivo NPU para garantir que o driver da NPU esteja instalado corretamente.

Observe que todos os drivers diferem entre o Windows e o Linux, portanto, siga as instruções para o seu sistema operacional específico.

Plano de desenvolvimento futuro

Aqui estão alguns recursos e melhorias planejadas para lançamentos futuros:

Adicione suporte TTS em inglês :
- Habilite a funcionalidade de texto em inglês (TTS), mas a tokenização para a entrada do idioma inglês ainda não foi implementada.
Melhorando a qualidade nos modelos TTS quantizados :
- O modelo quantizado INT8 atual exibe um pequeno ruído de fundo. Como solução alternativa, integramos o DeepFilternet para o pós-processamento. Avançando, pretendemos abordar o problema de ruído de maneira mais eficaz pelas técnicas de quantização.

Versão Python

A versão Python deste repositório (Melotts integrados ao OpenVino) é fornecida em Melotts-Ov. A versão Python inclui métodos para converter o modelo em OpenVino IR.

Código de terceiros

Este repositório inclui código de terceiros e bibliotecas para segmentação de palavras chinesas e processamento de pinyin.

cppjieba
- Uma biblioteca de segmentação de texto chinês.
cppinyin
- Uma biblioteca C ++ que suporta conversão entre caracteres chineses e pinyin
Libtorch
- Usado para integrar o DeepFilternet

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-08-23
tamanho 120.22MB
Vindo de Github

Aplicativos Relacionados

abseil cpp

2024-11-13
cpp httplib

2024-11-09
zenoh cpp

2024-11-02
CPP sem aplicativo de fã de diferença

2023-08-21
Ferramenta de verificação de CPP

2023-05-24
Versão mais recente do aplicativo CPP Comic Exhibition

2023-04-08

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos