Descargar MeloTTS.cpp - descarga del código fuente de MeloTTS.cpp

MeloTTS.cpp

Código Fuente de IA

1.0.0

Descargar

Melots.cpp

<Inglés | 简体中文 | 繁體中文>

Este repositorio ofrece una implementación de C ++ de Melotts, que es una biblioteca multilingüe de texto a voz multilingüe (TTS) lanzada por MyShell.ai que admite inglés, chino (mezclado con inglés) y otros idiomas. Esta implementación está totalmente integrada con OpenVino, admitiendo la implementación perfecta en dispositivos CPU, GPU y NPU. Actualmente, este repositorio solo admite chino mezclado con inglés. Soporte para el modelo inglés se vendrá a continuación.

Diseño de tuberías

El diseño de la tubería es en gran medida consistente con la versión Orignal Pytorch, que comprende tres modelos (Bert, TTS y DeepFilternet), con DeepFilternet agregado como un componente adicional.

Pipeline Design

Leyenda / terminología

Tokenizer y Bert: el modelo Tokenizer y Bert son bert-base-multilingual-uncased chino y bert-base-uncased para inglés
G2P: conversión de grafema a fonema
Teléfonos y tonos: representado como pinyin con cuatro tonos para chinos y fonemas con marcas de estrés para inglés
tone_sandi: clase utilizada para manejar escenarios chinos, corregir la tokenización y los teléfonos
DeepFilternet: utilizado para la ruido (ruido de fondo introducido por la cuantización int8)

Tabla de compatibilidad del dispositivo modelo

La siguiente tabla describe los dispositivos compatibles para cada modelo:

Nombre del modelo	Soporte de CPU	Soporte de GPU	Soporte de NPU
Bert (preprocesamiento)	✅	✅	✅
TTS (inferencia)	✅	✅
DeepFilternet (postprocesamiento)	✅	✅	✅

Guía de configuración y ejecución

1. Descargue el paquete Openvino C ++

Para descargar el paquete OpenVino C ++ para Windows, consulte el siguiente enlace: Instale OpenVino para Windows. Para OpenVino 2024.5 en Windows, puede ejecutar la línea de comando en el símbolo del sistema (CMD).

 curl -O https://storage.openvinotoolkit.org/repositories/openvino/packages/2024.5/windows/w_openvino_toolkit_windows_2024.5.0.17288.7975fa5da0c_x86_64.zip --ssl-no-revoke
tar -xvf w_openvino_toolkit_windows_2024.5.0.17288.7975fa5da0c_x86_64.zip

Para Linux, puede descargar el paquete C ++ desde este enlace: Instale OpenVino para Linux. Para OpenVino 2024.5 en Linux, simplemente descárguelo de https://storage.openvinotoolkit.org/repositories/openvino/packages/2024.5/linux y descifra el paquete.

Para ver versiones adicionales y más información sobre OpenVino, visite la página oficial de OpenVino Toolkit: OpenVino Toolkit Descripción general.

2. Clonar el repositorio

 git lfs install
git clone https://github.com/apinge/MeloTTS.cpp.git

3. Construir y ejecutar

3.1 Windows Build and Ejecutar

 <OpenVINO_DIR>setupvars.bat
cd MeloTTS.cpp
cmake -S . -B build && cmake --build build --config Release
.buildReleasemeloTTS_ov.exe --model_dir ov_models --input_file inputs.txt  --output_file audio.wav

3.2 Linux construir y ejecutar

 source <OpenVINO_DIR>/setupvars.sh
cd MeloTTS.cpp 
cmake -S . -B build && cmake --build build --config Release
./build/meloTTS_ov --model_dir ov_models --input_file inputs.txt --output_file audio.wav

3.3 habilitando y deshabilitando a DeepFilternet

La funcionalidad de DeepFilternet se admite actualmente solo en Windows y se usa para filtrar el ruido de los modelos cuantificados INT8. Por defecto, está habilitado, pero puede habilitarlo o deshabilitarlo durante la etapa CMake utilizando la opción -DUSE_DEEPFILTERNET .

Por ejemplo, para deshabilitar la función, puede usar la siguiente línea durante el proceso de generación CMake:

 cmake -S . -B build -DUSE_DEEPFILTERNET=OFF

Para obtener más información, consulte DeepFilternet.cpp.

4. Descripción de los argumentos

Puede usar run_tts.bat o run_tts.sh como scripts de muestra para ejecutar los modelos. A continuación se presentan los significados de todos los argumentos que puede usar con estos scripts:

--model_dir : Especifica la carpeta que contiene los archivos del modelo, los archivos de diccionario y los archivos de recursos de terceros, que se encuentra ov_models dentro del repositorio. Es posible que deba ajustar la ruta relativa en función de su directorio de trabajo actual.
--tts_device : Especifica el dispositivo OpenVino que se utilizará para el modelo TTS. Los dispositivos compatibles incluyen CPU y GPU (predeterminado: CPU).
--bert_device : Especifica el dispositivo OpenVino que se utilizará para el modelo BERT. Los dispositivos compatibles incluyen CPU, GPU y NPU (predeterminado: CPU).
--nf_device : Especifica el dispositivo OpenVino que se utilizará para el modelo DeepFilternet. Los dispositivos compatibles incluyen CPU, GPU y NPU (predeterminado: CPU).
--input_file : especifica el archivo de texto de entrada que se procesará. Asegúrese de que el texto esté en formato UTF-8 .
--output_file : especifica el archivo de audio de salida *.WAV que se generará.
--speed : especifica la velocidad del audio de salida. El valor predeterminado es 1.0.
--quantize : indica si usar un modelo cuantificado int8. El valor predeterminado es falso, lo que significa que un modelo FP16 se usa de forma predeterminada.
--disable_bert : indica si debe deshabilitar la inferencia del modelo Bert. El valor predeterminado es falso.
--disable_nf : indica si debe deshabilitar la inferencia del modelo DeepFilternet (predeterminado: falso).
--language : Especifica el idioma para TTS. El idioma predeterminado es el chino ( ZH ).

Soporte del dispositivo NPU

Los modelos Bert y DeepFilternet en la tubería admiten NPU como el dispositivo de inferencia, utilizando las NPU integradas en Meteor Lake y Lunar Lake.

A continuación se presentan los métodos para habilitar esta función y los detalles de uso:

Haga clic aquí para expandir/colapsar contenido

Cómo construir

-DUSE_BERT_NPU=ON

 cmake -DUSE_BERT_NPU=ON -B build -S .

Cómo establecer argumentos

--bert_device NPU

--nf_device NPU

 buildReleasemeloTTS_ov.exe --bert_device NPU --nf_device NPU --model_dir ov_models --input_file inputs.txt  --output_file audio.wav

Versiones compatibles

Sistema operativo : Windows, Linux
Arquitectura de CPU : Metor Lake, Lunar Lake y la mayoría de las CPU Intel
Arquitectura GPU : Intel® Arc ™ Graphics (Intel XE, incluido IGPU)
Arquitectura de NPU : NPU 4, NPU en el lago Meteor o Lunar Lake
Versión de OpenVino :> = 2024.4
Versión C ++ :> = C ++ 20

Si está utilizando un cuaderno de PC AI con Windows, los controladores GPU y NPU suelen estar preinstalados. Sin embargo, los usuarios de Linux o los usuarios de Windows que prefieren actualizar a los últimos controladores deben seguir las pautas a continuación:

Para GPU : si se usa GPU, consulte Configuraciones para los gráficos del procesador Intel® (GPU) con OpenVino ™ para instalar el controlador GPU.
Para NPU : si usa NPU, consulte el dispositivo NPU para asegurarse de que el controlador NPU esté instalado correctamente.

Tenga en cuenta que todos los controladores difieren entre Windows y Linux, así que asegúrese de seguir las instrucciones para su sistema operativo específico.

Plan de desarrollo futuro

Aquí hay algunas características y mejoras planificadas para futuros lanzamientos:

Agregar soporte de TTS en inglés :
- Habilite la funcionalidad de texto a voz en inglés (TTS), pero la tokenización para la entrada del idioma inglés aún no se ha implementado.
Mejora de calidad en modelos TTS cuantificados :
- El modelo cuantificado INT8 actual exhibe un ligero ruido de fondo. Como solución, integramos DeepFilternet para el postprocesamiento. En el futuro, nuestro objetivo es abordar el problema de ruido de manera más efectiva por las técnicas de cuantización.

Versión de Python

La versión de Python de este repositorio (Melotts integrado con OpenVino) se proporciona en Melotts-OV. La versión de Python incluye métodos para convertir el modelo en OpenVino IR.

Código de terceros

Este repositorio incluye código de terceros y bibliotecas para la segmentación de palabras chinas y el procesamiento de pinyin.

cppjieba
- Una biblioteca de segmentación de texto china.
cepa
- Una biblioteca C ++ que respalda la conversión entre caracteres chinos y pinyin
Libbtorch
- Utilizado para integrar DeepFilternet

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-08-23
tamaño 120.22MB
Proviene de Github

Aplicaciones relacionadas

abseil cpp

2024-11-13
cpp httplib

2024-11-09
zenoh cpp

2024-11-02
Aplicación para fanáticos de CPP sin diferencias

2023-08-21
Herramienta de escaneo CPP

2023-05-24
Última versión de la aplicación CPP Comic Exhibition

2023-04-08

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo