Descargar VITS Pytorch - Descargar el código fuente de VITS Pytorch

VITS Pytorch

Código Fuente de IA

1.0.0

Descargar

Chino simplificado | Inglés

Sistema de síntesis de voz basado en la implementación de Pytorch

Prefacio

Este proyecto es un proyecto de síntesis del habla basado en Pytorch, utilizando VITS. Los VIT (inferencia variacional con el aprendizaje adversario para el texto a la discurso de extremo a extremo) es un método de síntesis de voz. Este modelo de extremo a extremo es muy simple de usar y no requiere procesos demasiado complejos, como la alineación del texto. Está directamente entrenado y generado con un clic, lo que reduce en gran medida el umbral de aprendizaje.

Todos son bienvenidos a escanear el código para ingresar al planeta de conocimiento o al grupo QQ para discutir. Knowledge Planet proporciona archivos de modelos de proyectos y los otros archivos de modelos de proyectos relacionados de los bloggers, así como otros recursos.

Preparación para su uso

Anaconda 3
Python 3.8
Pytorch 1.13.1
Windows 10 o Ubuntu 18.04

Descargar modelo

Conjunto de datos	Idioma (dialecto)	Número de altavoces	Nombre del altavoz	Dirección de descarga
Bznsyp	mandarín	1	Voz femenina estándar	Haga clic para descargar
Conjunto de datos cantonés	Cantonés	10	Voz masculina 1 Chicas 1 ···	Haga clic para descargar

Entorno de instalación

Lo primero que debe instalar es la versión GPU de Pytorch. Si se ha instalado, omita.

conda install pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.6 -c pytorch -c nvidia

Instale la biblioteca MVITS.

Use PIP para instalar el comando de la siguiente manera:

python -m pip install mvits -U -i https://pypi.tuna.tsinghua.edu.cn/simple

Se recomienda instalar el código fuente , que puede garantizar el uso del último código.

git clone https://github.com/yeyupiaoling/VITS-Pytorch.git
cd VITS-Pytorch/
pip install .

Preparar datos

El proyecto admite la generación directa de listas de datos BZNSYP y AISHELL3. Tomando bznsyp como ejemplo, descargue bznsyp al directorio dataset y descompresiones. Luego ejecute el programa create_list.py y genere una tabla de datos en el siguiente formato, el formato es <音频路径>|<说话人名称>|<标注数据> . Tenga en cuenta que los datos de etiquetado requieren lenguaje de etiquetado. Por ejemplo, en mandarín, debe envolver el texto en [ZH] . Otros idiomas admiten japonés: [JA] , inglés: [en], 한국어: [ko]. Los conjuntos de datos personalizados se pueden generar en este formato.

El proyecto proporciona dos métodos de procesamiento de texto, diferentes métodos de procesamiento de texto y admite diferentes idiomas, a saber, cjke_cleaners2 y chinese_dialect_cleaners . Esta configuración se modifica en dataset_conf.text_cleaner . cjke_cleaners2 admite idiomas {"普通话": "[ZH]", "日本語": "[JA]", "English": "[EN]", "한국어": "[KO]"} , chinese_dialect_cleaners apoya los idiomas {"普通话": "[ZH]", "日本語": "[JA]", "English": "[EN]", "粤语": "[GD]", "上海话": "[SH]", "苏州话": "[SZ]", "无锡话": "[WX]", "常州话": "[CZ]", "杭州话": "[HZ]", ·····} , para obtener más idiomas, puedes ver el código de código fuente_marks.

 dataset/BZNSYP/Wave/000001.wav|标准女声|[ZH]卡尔普陪外孙玩滑梯。[ZH]
dataset/BZNSYP/Wave/000002.wav|标准女声|[ZH]假语村言别再拥抱我。[ZH]
dataset/BZNSYP/Wave/000003.wav|标准女声|[ZH]宝马配挂跛骡鞍，貂蝉怨枕董翁榻。[ZH]

Después de tener la lista de datos, debe generar una lista de datos de Phoneme. Simplemente ejecute preprocess_data.py --train_data_list=dataset/bznsyp.txt para generar una lista de datos de fonema. En este punto, los datos están listos.

 dataset/BZNSYP/Wave/000001.wav|0|kʰa↓↑əɹ`↓↑pʰu↓↑ pʰeɪ↑ waɪ↓swən→ wan↑ xwa↑tʰi→.
dataset/BZNSYP/Wave/000002.wav|0|tʃ⁼ja↓↑ɥ↓↑ tsʰwən→jɛn↑p⁼iɛ↑ ts⁼aɪ↓ jʊŋ→p⁼ɑʊ↓ wo↓↑.
dataset/BZNSYP/Wave/000003.wav|0|p⁼ɑʊ↓↑ma↓↑ pʰeɪ↓k⁼wa↓ p⁼wo↓↑ lwo↑an→, t⁼iɑʊ→ts`ʰan↑ ɥæn↓ ts`⁼ən↓↑ t⁼ʊŋ↓↑ʊŋ→ tʰa↓.

tren

Ahora puedes comenzar a entrenar el modelo. Los parámetros en el archivo de configuración generalmente no necesitan ser modificados. El número de altavoces y el nombre del altavoz serán modificados por preprocess_data.py . Lo único que puede necesitar modificarse es train.batch_size . Si la memoria de video es insuficiente, este parámetro se puede reducir.

 # 单卡训练
CUDA_VISIBLE_DEVICES=0 python train.py
# 多卡训练
CUDA_VISIBLE_DEVICES=0,1 torchrun --standalone --nnodes=1 --nproc_per_node=2 train.py

Registro de salida de entrenamiento:

 [2023-08-28 21:04:42.274452 INFO   ] utils:print_arguments:123 - ----------- 额外配置参数 -----------
[2023-08-28 21:04:42.274540 INFO   ] utils:print_arguments:125 - config: configs/config.yml
[2023-08-28 21:04:42.274580 INFO   ] utils:print_arguments:125 - epochs: 10000
[2023-08-28 21:04:42.274658 INFO   ] utils:print_arguments:125 - model_dir: models
[2023-08-28 21:04:42.274702 INFO   ] utils:print_arguments:125 - pretrained_model: None
[2023-08-28 21:04:42.274746 INFO   ] utils:print_arguments:125 - resume_model: None
[2023-08-28 21:04:42.274788 INFO   ] utils:print_arguments:126 - ------------------------------------------------
[2023-08-28 21:04:42.727728 INFO   ] utils:print_arguments:128 - ----------- 配置文件参数 -----------
[2023-08-28 21:04:42.727836 INFO   ] utils:print_arguments:131 - dataset_conf:
[2023-08-28 21:04:42.727909 INFO   ] utils:print_arguments:138 -        add_blank: True
[2023-08-28 21:04:42.727975 INFO   ] utils:print_arguments:138 -        batch_size: 16
[2023-08-28 21:04:42.728037 INFO   ] utils:print_arguments:138 -        cleaned_text: True
[2023-08-28 21:04:42.728097 INFO   ] utils:print_arguments:138 -        eval_sum: 2
[2023-08-28 21:04:42.728157 INFO   ] utils:print_arguments:138 -        filter_length: 1024
[2023-08-28 21:04:42.728204 INFO   ] utils:print_arguments:138 -        hop_length: 256
[2023-08-28 21:04:42.728235 INFO   ] utils:print_arguments:138 -        max_wav_value: 32768.0
[2023-08-28 21:04:42.728266 INFO   ] utils:print_arguments:138 -        mel_fmax: None
[2023-08-28 21:04:42.728298 INFO   ] utils:print_arguments:138 -        mel_fmin: 0.0
[2023-08-28 21:04:42.728328 INFO   ] utils:print_arguments:138 -        n_mel_channels: 80
[2023-08-28 21:04:42.728359 INFO   ] utils:print_arguments:138 -        num_workers: 4
[2023-08-28 21:04:42.728388 INFO   ] utils:print_arguments:138 -        sampling_rate: 22050
[2023-08-28 21:04:42.728418 INFO   ] utils:print_arguments:138 -        speakers_file: dataset/speakers.json
[2023-08-28 21:04:42.728448 INFO   ] utils:print_arguments:138 -        text_cleaner: cjke_cleaners2
[2023-08-28 21:04:42.728483 INFO   ] utils:print_arguments:138 -        training_file: dataset/train.txt
[2023-08-28 21:04:42.728539 INFO   ] utils:print_arguments:138 -        validation_file: dataset/val.txt
[2023-08-28 21:04:42.728585 INFO   ] utils:print_arguments:138 -        win_length: 1024
[2023-08-28 21:04:42.728615 INFO   ] utils:print_arguments:131 - model:
[2023-08-28 21:04:42.728648 INFO   ] utils:print_arguments:138 -        filter_channels: 768
[2023-08-28 21:04:42.728685 INFO   ] utils:print_arguments:138 -        gin_channels: 256
[2023-08-28 21:04:42.728717 INFO   ] utils:print_arguments:138 -        hidden_channels: 192
[2023-08-28 21:04:42.728747 INFO   ] utils:print_arguments:138 -        inter_channels: 192
[2023-08-28 21:04:42.728777 INFO   ] utils:print_arguments:138 -        kernel_size: 3
[2023-08-28 21:04:42.728808 INFO   ] utils:print_arguments:138 -        n_heads: 2
[2023-08-28 21:04:42.728839 INFO   ] utils:print_arguments:138 -        n_layers: 6
[2023-08-28 21:04:42.728870 INFO   ] utils:print_arguments:138 -        n_layers_q: 3
[2023-08-28 21:04:42.728902 INFO   ] utils:print_arguments:138 -        p_dropout: 0.1
[2023-08-28 21:04:42.728933 INFO   ] utils:print_arguments:138 -        resblock: 1
[2023-08-28 21:04:42.728965 INFO   ] utils:print_arguments:138 -        resblock_dilation_sizes: [[1, 3, 5], [1, 3, 5], [1, 3, 5]]
[2023-08-28 21:04:42.728997 INFO   ] utils:print_arguments:138 -        resblock_kernel_sizes: [3, 7, 11]
[2023-08-28 21:04:42.729027 INFO   ] utils:print_arguments:138 -        upsample_initial_channel: 512
[2023-08-28 21:04:42.729058 INFO   ] utils:print_arguments:138 -        upsample_kernel_sizes: [16, 16, 4, 4]
[2023-08-28 21:04:42.729089 INFO   ] utils:print_arguments:138 -        upsample_rates: [8, 8, 2, 2]
[2023-08-28 21:04:42.729119 INFO   ] utils:print_arguments:138 -        use_spectral_norm: False
[2023-08-28 21:04:42.729150 INFO   ] utils:print_arguments:131 - optimizer_conf:
[2023-08-28 21:04:42.729184 INFO   ] utils:print_arguments:138 -        betas: [0.8, 0.99]
[2023-08-28 21:04:42.729217 INFO   ] utils:print_arguments:138 -        eps: 1e-09
[2023-08-28 21:04:42.729249 INFO   ] utils:print_arguments:138 -        learning_rate: 0.0002
[2023-08-28 21:04:42.729280 INFO   ] utils:print_arguments:138 -        optimizer: AdamW
[2023-08-28 21:04:42.729311 INFO   ] utils:print_arguments:138 -        scheduler: ExponentialLR
[2023-08-28 21:04:42.729341 INFO   ] utils:print_arguments:134 -        scheduler_args:
[2023-08-28 21:04:42.729373 INFO   ] utils:print_arguments:136 -                gamma: 0.999875
[2023-08-28 21:04:42.729404 INFO   ] utils:print_arguments:131 - train_conf:
[2023-08-28 21:04:42.729437 INFO   ] utils:print_arguments:138 -        c_kl: 1.0
[2023-08-28 21:04:42.729467 INFO   ] utils:print_arguments:138 -        c_mel: 45
[2023-08-28 21:04:42.729498 INFO   ] utils:print_arguments:138 -        enable_amp: True
[2023-08-28 21:04:42.729530 INFO   ] utils:print_arguments:138 -        log_interval: 200
[2023-08-28 21:04:42.729561 INFO   ] utils:print_arguments:138 -        seed: 1234
[2023-08-28 21:04:42.729592 INFO   ] utils:print_arguments:138 -        segment_size: 8192
[2023-08-28 21:04:42.729622 INFO   ] utils:print_arguments:141 - ------------------------------------------------
[2023-08-28 21:04:42.729971 INFO   ] trainer:__init__:53 - [cjke_cleaners2]支持语言：['日本語', '普通话', 'English', '한국어', "Mix": ""]
[2023-08-28 21:04:42.795955 INFO   ] trainer:__setup_dataloader:119 - 训练数据：9984
epoch [1/10000]: 100%|██████████| 619/619 [05:30<00:00,  1.88it/s]]
[2023-08-25 16:44:25.205557 INFO   ] trainer:train:168 - ======================================================================
epoch [2/10000]: 100%|██████████| 619/619 [05:20<00:00,  1.93it/s]s]
[2023-08-25 16:49:54.372718 INFO   ] trainer:train:168 - ======================================================================
epoch [3/10000]: 100%|██████████| 619/619 [05:19<00:00,  1.94it/s]
[2023-08-25 16:55:21.277194 INFO   ] trainer:train:168 - ======================================================================
epoch [4/10000]: 100%|██████████| 619/619 [05:18<00:00,  1.94it/s]

Los registros de entrenamiento también se guardarán utilizando VisualDL. Puede usar esta herramienta para ver los cambios de pérdida y los efectos de síntesis en tiempo real. Simplemente ejecute visualdl --logdir=log/ --host=0.0.0.0 en el directorio raíz del proyecto, y visite http://<IP地址>:8040 para abrir la página. El efecto es el siguiente.

Síntesis fonética

Después de entrenar a cierto nivel, puede comenzar a usar el modelo para la pronunciación. El comando es el siguiente. Hay tres parámetros principales, a saber, --text especifica el texto que debe ser sintetizado. --language especifica el lenguaje del texto compuesto. Si el idioma se especifica como Mix , está en modo mixto. El usuario necesita envolver manualmente el texto de ingresos con una etiqueta de idioma. Finalmente, especifique el parámetro del altavoz --spk . Ve y pruébalo rápidamente.

python infer.py --text= "你好，我是智能语音助手。 " --language=普通话 --spk=标准女声

Recompensa al autor

Recompensa un dólar para apoyar al autor

Referencias

https://github.com/jaywalnut310/vits
https://github.com/paddlepaddle/paddlespeech
https://github.com/yeyupiaoling/masr
https://github.com/artrajz/vits-simple-api

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-09-14
tamaño 4.05MB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
pytorch image models

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
BROMA

2024-02-26

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo