Este repositório é uma implementação multilíngue fonêmica (russa-inglês) baseada na clonagem de voz em tempo real. É uma estrutura de aprendizado profundo de quatro estágios que permite criar uma representação numérica de uma voz a partir de alguns segundos de áudio e para nós para condicionar um modelo de texto em fala. Se você precisar da versão em inglês, use a implementação original.
Este repositório é uma implementação fonêmica multilíngue (russa-inglesa) com base na clonagem em tempo real. Consiste em quatro redes neurais que permitem criar uma representação numérica da voz a partir de vários segundos de som e usá -la para criar um modelo para converter texto em fala
Use a demonstração online do Colab
Você precisará do seguinte o que planeja usar a caixa de ferramentas apenas para treinar os modelos.
≥python 3.6 .
Pytorch (> = 1.0.1).
Execute pip install -r requirements.txt para instalar os pacotes necessários.
Uma GPU é obrigatória, mas você não precisa necessariamente de uma GPU de alta camada se quiser usar a caixa de ferramentas.
Faça o download do último geere.
| NOME | Linguagem | Link | Comentários | Meu link | Comentários |
|---|---|---|---|---|---|
| Dicionário Fonema | En, ru | En, ru | Dicionário Fonema | Link | Dicionário fonêmico russo e inglês combinado |
| Librispeech | En | Link | 300 alto -falantes, discurso limpo 360h | ||
| Voxceleb | En | Link | 7000 alto -falantes, muitas horas de discurso ruim | ||
| M-AAKABS | Ru | Link | 3 alto -falantes, 46h de fala limpa | ||
| Open_tts, Open_stt | Ru | Open_tts, Open_stt | Muitos oradores, muitas horas de discurso ruim | Link | Limpo 4 horas de fala de um orador. Corrigiu a anotação, dividida em segmentos de até 7 segundos |
| Voxforge+Audiobook | Ru | Link | Muitos oradores, 25h de várias qualidade | Link | Eu escolhi bons arquivos. Invadiu segmentos. Adicionado um audiolivro da Internet. Aconteceu 200 alto -falantes alguns minutos para cada |
| Ruslan | Ru | Link | Um alto -falante, 40h bom discurso | Link | Corrigido em 16kHz |
| Mozilla | Ru | Link | 50 alto -falante, 30h bom discurso | Link | Carred em 16kHz, espalhou diferentes usuários em pastas |
| Single russo | Ru | Link | Um orador, 9h bom discurso | Link | Corrigido em 16kHz |
Você pode tentar a caixa de ferramentas:
python demo_toolbox.py -d <datasets_root>
ou
python demo_toolbox.py
Modelos pré -terem sido pretados
Treinamento (e para outros idiomas)
Treinamento (e para outros idiomas)
Para qualquer dúvida, envie um e -mail para MEM
| Url | Designação | Título | Fonte de implementação |
|---|---|---|---|
| 1806.04558 | Sv2tts | Transfira o aprendizado da verificação do alto-falante para a síntese de texto para fala multispica. | Corentinj |
| 1802.08435 | Wavernn (vocoder) | Síntese de áudio eficientes | Fatchord/Wavernn |
| 1712.05884 | Tacotron 2 (Synthesizer) | Síntese natural de TTS por condicionamento de wavenet em previsões de espectrograma MEL | Rayhane-Mamah/Tacotron-2 |
| 1710.10467 | GE2E (codificador) | Perda de ponta a ponta generalizada para verificação do alto-falante | Corentinj |