
Motivação do projeto
Nota pessoal
Conjuntos de dados de voz Thorsten
Modelos Thorsten TTS
Canal do YouTube Thorsten-Voice
Palestrante de palestras e conferências públicas
Uma voz TTS alemã de alta qualidade e de alta qualidade deve estar disponível para todos os projetos sem nenhuma licença.
Contribuo com minha voz como uma pessoa que acredita em um mundo onde todas as pessoas são iguais. Não importa o gênero, orientação sexual, religião, cor da pele e geocoordinas da localização do nascimento. Um mundo global onde todos são bem -vindos em qualquer lugar neste planeta e conhecimento e educação abertos e gratuitos estão disponíveis para todos. ? ( Thorsten Müller )
Lembre -se de que não sou talento de voz profissional . Eu sou apenas um cara normal compartilhando sua voz com o mundo.
Sinta -se à vontade para entrar em contato comigo nas mídias sociais?
| Plataforma | Link |
|---|---|
| YouTube | Thorstenvoice no YouTube |
| Thorsten Müller no LinkedIn | |
| Thorstenvoice no Twitter | |
| Huggingface | Thorstenvoice no Huggingface |
| Thorstenvoice no Instagram |
Todos os meus conjuntos de dados "Thorsten-Voice" estão listados e downloads no Zenodo. O Qoutation é muito apreciado, caso você os use em seus projetos, produtos ou papéis.
| Conjunto de dados | Link doi |
|---|---|
| DataSet Thorsten-Voice 2021.02 (neutro) | |
| DataSet Thorsten-Voice 2021.06 (emocional) | |
| DataSet Thorsten-Voice 2022.10 (neutro) | |
| DataSet de Thorsten-Voice 2023.09 (Hessisch) |
@dataset{muller_2021_5525342,
author = {Müller, Thorsten and
Kreutz, Dominik},
title = {Thorsten-Voice Dataset 2021.02},
month = sep,
year = 2021,
note = {{Please use it to make the world a better place for
whole humankind.}},
publisher = {Zenodo},
version = {3.0},
doi = {10.5281/zenodo.5525342},
url = {https://doi.org/10.5281/zenodo.5525342}
}
Conforme descrito no documento PDF (evolução do conjunto de dados Thorsten), este conjunto de dados consiste em três fases de gravação.
Se você deseja usar um subconjunto de conjunto de dados, pode ver quais arquivos pertencem a qual fase de gravação na gravação do arquivo CSV de qualidade.
@dataset{muller_2021_5525023,
author = {Müller, Thorsten and
Kreutz, Dominik},
title = {Thorsten-Voice Dataset 2021.06 emotional},
month = sep,
year = 2021,
note = {{Please use it to make the world a better place for
whole humankind.}},
publisher = {Zenodo},
version = {2.0},
doi = {10.5281/zenodo.5525023},
url = {https://doi.org/10.5281/zenodo.5525023}
}
Todas as gravações emocionais foram registradas por mim e eu tentamos sentir e pronunciar essa emoção, mesmo que o contexto da frase não corresponda a essa emoção. Exemplo: pronunciei as gravações sonolentas no tom que tenho pouco antes de adormecer.
Ouça algumas gravações de áudio deste conjunto de dados aqui.
@dataset{muller_2022_7265581,
author = {Müller, Thorsten and
Kreutz, Dominik},
title = {Thorsten-Voice Dataset 2022.10},
month = nov,
year = 2022,
publisher = {Zenodo},
version = {1.0},
doi = {10.5281/zenodo.7265581},
url = {https://doi.org/10.5281/zenodo.7265581}
}
@dataset{muller_2024_10511260,
author = {Müller, Thorsten and
Kreutz, Dominik},
title = {Thorsten-Voice Dataset 2023.09 Hessisch},
month = jan,
year = 2024,
publisher = {Zenodo},
doi = {10.5281/zenodo.10511260},
url = {https://doi.org/10.5281/zenodo.10511260}
}
Celebrando? 5 anos do Projeto Thorsten-Voice (Est. Outubro de 2019) Languei todas as gravações em Amospleração completa (44kHz) em um conjunto de dados tudo-em-um em? Huggingface! Obviamente novamente na licença CC0!
@misc {thorsten_müller_2024,
author = { {Thorsten Müller} },
title = { TV-44kHz-Full (Revision ff427ec) },
year = 2024,
url = { https://huggingface.co/datasets/Thorsten-Voice/TV-44kHz-Full },
doi = { 10.57967/hf/3290 },
publisher = { Hugging Face }
}
Com base nesses conjuntos de dados de voz OpenSource, vários modelos TTS (texto para fala) foram treinados usando a tecnologia de aprendizado de IA / máquina.
Existem vários modelos alemães disponíveis treinados e usados pelos projetos Coqui AI , Piper TTS e Home Assistant . Você pode encontrar mais informações sobre como usá-las, amostras de áudio e tutoriais em vídeo no site do projeto Thorsten-Voice.
Ouça amostras de áudio e instruções de instalação / uso aqui (??):
Além disso, Silero, Monatis e Zdisket também usaram meus conjuntos de dados de voz para treinamento de modelos. Mais amostras e detalhes podem ser encontrados nas amostras de áudio Silero Thorsten-Voice. Veja este notebook Colab para obter mais detalhes.
O Zdisket criou uma ferramenta chamada Tensorvox para configurar um ambiente TTS no Windows e incluiu um modelo TTS alemão treinado pela Monatis. Obrigado por compartilhar isso. Veja em ação no YouTube.
Se você gosta da minha contribuição de voz e gostaria de apoiar meu esforço para um futuro da Tecnologia de Voz OpenSource, você pode me apoiar, se quiser:
Quero agradecer a pessoas ótimas que me apoiaram nessa jornada com boas palavras, apoio e poder de computação: obrigado El-Tocino, Eren Gölge, Gras64, Kris Gesling, Nmstoker, Othiele, Repodiac, Sanjaesc, Sinesthesiam.
Agradecimentos especiais ao meu querido colega, Sebastian Kraus, por me apoiar com equipamentos de gravação de áudio e por ser o mentor criativo por trás do design do logotipo e, é claro, do querido Dominik (@Domcross) por ele estar tão perto do meu lado nesta incrível jornada.
No meu canal de Thorsten-Voice YouTube, você pode encontrar o tutorial passo a passo (receitas de cozinha) sobre a tecnologia de voz OpenSource. Se você estiver interessado, ficaria feliz em recebê -lo como novo assinante em minha maravilhosa comunidade do YouTube.ts ** no meu pequeno.
Eu realmente gosto de falar sobre a importância de um futuro de tecnologia de voz OpenSource. Se você gostaria que eu fosse um orador em uma conferência ou evento, ficaria feliz em ser contatado usando o formulário de contato do site de Thorsten-Voice. Veja algumas das minhas referências de alto-falante no site de Thorsten-Voice.