Download do MTTS - Download do código -fonte MTTS

MTTS

Código-Fonte de IA

1.0.0

Baixar

Este projeto foi parado e é bastante velho

recomendar:

https://github.com/paddlepaddle/paddlespeech/tree/devell/paddlespeech/t2s/frontend
https://github.com/thuhcsi/crystal

Bem -vindo para participar

Síntese de voz Comunicação QQ Grupo: 882726654

Uma demonstração do mandarim/texto chinês do MTTS para o Frentend

Mandarim/texto chinês para a fala com base na síntese de fala do parâmetro estatístico usando o Merlin Toolkit

Esta é apenas uma demonstração na extremidade frontal da síntese de pronúncia. Ele não fornece funções de regularização e previsão de ritmo de texto. Use Pypinyin para converter texto em pinyin e use gaguejando para participar. A precisão desses dois não é tão boa quanto o nível comercial.

Para outros projetos de síntese de voz, o portal de ponta a ponta é uma boa direção, e a naturalidade é melhor que a de Merlin.

Esta é apenas uma demonstração do front -end mandarim, que é a falta de algumas partes como "normalização de texto" e "previsão de prosódia", e o conjunto de telefones e o conjunto de perguntas que este projeto não foi totalmente testado ainda.

Uma documentação aproximada: um rascunho de documentação escrita em mandarim

Dados

Não existe conjunto de dados de síntese de fala mandarim de código aberto na internet, esse proj usou o conjunto de dados THCHS30 para demostratar a síntese de fala

ATUALIZAR

Dados de síntese de fala mandarim de código aberto da empresa de banker de dados, dados de síntese de fala chinesa de código aberto, graças à empresa Biaobei

【Download de dados】 https://weixinxcxdb.oss-cn-beijing.aliyuncs.com/gwyinpinku/bznsyp.rar 【Dados Descrição】 http://www.data-baker.com/open_source.html

Amostras geradas

Ouça https://jackiexiao.github.io/mtts/

Como reproduzir

Primeiro, você precisa de dados contém WAV e TXT (a Prosody Mark é opcional)
Segundo, gerar rótulo HTS usando este projeto
Usando Merlin/Egs/Mandarin_voice para treinar e gerar voz de mandarim

Conjunto de anotações e perguntas relacionadas ao contexto

Anotação relacionada ao contexto
Conjunto de perguntas
Regras para projetar regras de design de cenas de perguntas

Instalar

Python: Python3.6
Sistema: Linux (testado no Ubuntu16.04)

 pip install jieba pypinyin
sudo apt-get install libatlas3-base

Execute bash tools/install_mtts.sh
Ou baixe o arquivo sozinho

Faça o download do alinhador de Montreal forçado e descompacte para ferramentas de diretório/
Baixar acoustic_model thchs30.zip e copiar para diretório Misc/

Run Demo

 bash run_demo.sh

Uso

1. Gere o rótulo HTS por WAV e texto

Uso: Execute python src/mtts.py txtfile wav_directory_path output_directory_path (caminho absoluto ou caminho relativo), então você receberá o rótulo HTS, se você tem seu próprio modelo acústico treinado por um projeto de forçado, por meio de -a your_acoustic_model.zip projeto de alinhamento.
ATENÇÃO: Atualmente, apóia apenas o personagem chinês, o TXT não deve ter nenhum número de Arábia ou alfabeto em inglês (não pode conter números árabes e personagens em inglês)

Exemplo txtfile

 A_01 这是一段文本
A_02 这是第二段文本

Exemplo WAV_Directory (a taxa de amostragem deve maior que 16kHz)

 A_01.wav  
A_02.wav

2. Gere o rótulo HTS por texto com ou sem arquivo de alinhamento

Uso: execute python src/mandarin_frontend.py txtfile output_directory_path
ou importar mandarin_frondend

 from mandarin_frontend import txt2label

result = txt2label('向香港特别行政区同胞澳门和台湾同胞海外侨胞')
[print(line) for line in result]

# with prosody mark and alignment file (sfs file)
# result = txt2label('向#1香港#2特别#1行政区#1同胞#4澳门#2和#1台湾#1同胞#4海外#1侨胞',
            sfsfile='example_file/example.sfs')

Consulte o código -fonte para obter mais informações, mas preste atenção ao arquivo de alinhamento (arquivo SFS), o formato é endtime phone_type não start_time, phone_type (que é diferente dos dados da Speech Ocean)

3. Alinhamento forçado

Este projeto usa o alinhador forçado a Montreal para fazer alinhamento forçado, se você quiser obter um melhor alinhamento, use seus dados para treinar um modelo de alinhamento, consulte MFA: Algin-Using-in-the-DataSet

Treinamos o modelo acústico usando o conjunto de dados THCHS30, consulte misc/thchs30.zip , o dicionário que usamos mandarin_mtts.lexicon. Se você usar o conjunto de dados maior que o THCHS30, poderá obter melhor alinhamento.
Se você deseja usar o modelo de mandarim pré-treinado de MFA (alinhador forçado), este é o dicionário que você precisa mandarim para alinhador forçado a mandarim-modelo-treinado-model.lexicon

Prosody Mark

Você pode gerar o rótulo HTS sem prosódia Mark. Assumimos que o segmento de palavras é menor que a palavra prosódica (que é ajustada no código)

"#0", "#1", "#2", "#3" e "#4" são os símbolos de rotulagem de prosódia.

#0 significa segmento de palavras
#1 significa palavra prosódica
#2 significa Palavra estressante (na verdade, neste projeto, relembramos como #1)
#3 significa frase prosódica
#4 significa frase internacional