Download Thorsten Voice - Download do código -fonte Thorsten Voice

Thorsten Voice

Código-Fonte de IA

1.0.0

Baixar

Logotipo Thorsten-Voice

Motivação do projeto
Nota pessoal
Conjuntos de dados de voz Thorsten
- DataSet Thorsten-Voice 2021.02 (neutro)
- DataSet Thorsten-Voice 2021.06 (emocional)
- DataSet Thorsten-Voice 2022.10 (neutro)
- DataSet de Thorsten-Voice 2023.09 (Hessisch)
- DataSet Thorsten-Voice Full 44kHz
Modelos Thorsten TTS
Canal do YouTube Thorsten-Voice
Palestrante de palestras e conferências públicas

Motivação para o projeto Thorsten-Voice

Uma voz TTS alemã de alta qualidade e de alta qualidade deve estar disponível para todos os projetos sem nenhuma licença.

Palavras pessoais de Thorsten Müller

Contribuo com minha voz como uma pessoa que acredita em um mundo onde todas as pessoas são iguais. Não importa o gênero, orientação sexual, religião, cor da pele e geocoordinas da localização do nascimento. Um mundo global onde todos são bem -vindos em qualquer lugar neste planeta e conhecimento e educação abertos e gratuitos estão disponíveis para todos. ? ( Thorsten Müller )

Lembre -se de que não sou talento de voz profissional . Eu sou apenas um cara normal compartilhando sua voz com o mundo.

Mídia social

Sinta -se à vontade para entrar em contato comigo nas mídias sociais?

Plataforma	Link
YouTube	Thorstenvoice no YouTube
LinkedIn	Thorsten Müller no LinkedIn
Twitter	Thorstenvoice no Twitter
Huggingface	Thorstenvoice no Huggingface
Instagram	Thorstenvoice no Instagram

Datasetos de voz

Todos os meus conjuntos de dados "Thorsten-Voice" estão listados e downloads no Zenodo. O Qoutation é muito apreciado, caso você os use em seus projetos, produtos ou papéis.

Conjunto de dados	Link doi
DataSet Thorsten-Voice 2021.02 (neutro)
DataSet Thorsten-Voice 2021.06 (emocional)
DataSet Thorsten-Voice 2022.10 (neutro)
DataSet de Thorsten-Voice 2023.09 (Hessisch)

DataSet Thorsten-Voice 2021.02 (neutro)

 @dataset{muller_2021_5525342,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {Thorsten-Voice Dataset 2021.02},
  month        = sep,
  year         = 2021,
  note         = {{Please use it to make the world a better place for 
                   whole humankind.}},
  publisher    = {Zenodo},
  version      = {3.0},
  doi          = {10.5281/zenodo.5525342},
  url          = {https://doi.org/10.5281/zenodo.5525342}
}

Resumo do conjunto de dados

Gravado por Thorsten Müller
Otimizado por Dominik Kreutz
Arquivo LJSpeech e estrutura de diretório
22.668 Frases gravadas ( arquivos WAV )
Mais de 23 horas de áudio puro
Amostrado 22.050Hz
Mono
Normalizado para -24db
Comprimento da frase (min / avg / max): 2/52/180 chars
Sem silêncio no começo/final
AVG falou chars por segundo: 14
Frases com ponto de interrogação: 2.780
Frases com Marca de Exclamação: 1,840

Evolução do conjunto de dados

Conforme descrito no documento PDF (evolução do conjunto de dados Thorsten), este conjunto de dados consiste em três fases de gravação.

Fase 1 : Gravado com um microfone USB barato ( baixa qualidade )
Fase 2 : Gravado com um bom microfone ( boa qualidade )
Fase 3 : Gravado com o mesmo microfone bom, mas frases mais longas (> 100 chars) ( boa qualidade )

Se você deseja usar um subconjunto de conjunto de dados, pode ver quais arquivos pertencem a qual fase de gravação na gravação do arquivo CSV de qualidade.

DataSet Thorsten-Voice 2021.06 (emocional)

 @dataset{muller_2021_5525023,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {Thorsten-Voice Dataset 2021.06 emotional},
  month        = sep,
  year         = 2021,
  note         = {{Please use it to make the world a better place for 
                   whole humankind.}},
  publisher    = {Zenodo},
  version      = {2.0},
  doi          = {10.5281/zenodo.5525023},
  url          = {https://doi.org/10.5281/zenodo.5525023}
}

Todas as gravações emocionais foram registradas por mim e eu tentamos sentir e pronunciar essa emoção, mesmo que o contexto da frase não corresponda a essa emoção. Exemplo: pronunciei as gravações sonolentas no tom que tenho pouco antes de adormecer.

Resumo do conjunto de dados

Gravado por Thorsten Müller
Otimizado por Dominik Kreutz
300 frases * 8 emoções = 2,400 gravações
Mono
Amostrado 22.050Hz
Normalizado para -24db
Sem silêncio no começo/final
Comprimento da frase: 59 - 148 chars

DataSet Thorsten-Voice 2022.10 (neutro)

Ouça algumas gravações de áudio deste conjunto de dados aqui.

 @dataset{muller_2022_7265581,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {Thorsten-Voice Dataset 2022.10},
  month        = nov,
  year         = 2022,
  publisher    = {Zenodo},
  version      = {1.0},
  doi          = {10.5281/zenodo.7265581},
  url          = {https://doi.org/10.5281/zenodo.7265581}
}

DataSet de Thorsten-Voice 2023.09 (Hessisch)

 @dataset{muller_2024_10511260,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {Thorsten-Voice Dataset 2023.09 Hessisch},
  month        = jan,
  year         = 2024,
  publisher    = {Zenodo},
  doi          = {10.5281/zenodo.10511260},
  url          = {https://doi.org/10.5281/zenodo.10511260}
}

DataSet Thorsten-Voice Full 44kHz

Celebrando? 5 anos do Projeto Thorsten-Voice (Est. Outubro de 2019) Languei todas as gravações em Amospleração completa (44kHz) em um conjunto de dados tudo-em-um em? Huggingface! Obviamente novamente na licença CC0!

https://huggingface.co/datasets/thorsten-voice/tv-44khz-full

 @misc {thorsten_müller_2024,
    author       = { {Thorsten Müller} },
    title        = { TV-44kHz-Full (Revision ff427ec) },
    year         = 2024,
    url          = { https://huggingface.co/datasets/Thorsten-Voice/TV-44kHz-Full },
    doi          = { 10.57967/hf/3290 },
    publisher    = { Hugging Face }
}

Modelos TTS

Com base nesses conjuntos de dados de voz OpenSource, vários modelos TTS (texto para fala) foram treinados usando a tecnologia de aprendizado de IA / máquina.

Existem vários modelos alemães disponíveis treinados e usados pelos projetos Coqui AI , Piper TTS e Home Assistant . Você pode encontrar mais informações sobre como usá-las, amostras de áudio e tutoriais em vídeo no site do projeto Thorsten-Voice.

Ouça amostras de áudio e instruções de instalação / uso aqui (??):

TTS neutro
TTS emocional
Hessisches tts
Smarthome / Home Assistant

Além disso, Silero, Monatis e Zdisket também usaram meus conjuntos de dados de voz para treinamento de modelos. Mais amostras e detalhes podem ser encontrados nas amostras de áudio Silero Thorsten-Voice. Veja este notebook Colab para obter mais detalhes.

O Zdisket criou uma ferramenta chamada Tensorvox para configurar um ambiente TTS no Windows e incluiu um modelo TTS alemão treinado pela Monatis. Obrigado por compartilhar isso. Veja em ação no YouTube.

Apoio e obrigado

Se você gosta da minha contribuição de voz e gostaria de apoiar meu esforço para um futuro da Tecnologia de Voz OpenSource, você pode me apoiar, se quiser:

Inscreva-se e compartilhe meu canal Thorsten-Voice Youtube e siga-me em meus perfis de mídia social
Compre um chá usando Ko-Fi ou Patrocinador do Github

Quero agradecer a pessoas ótimas que me apoiaram nessa jornada com boas palavras, apoio e poder de computação: obrigado El-Tocino, Eren Gölge, Gras64, Kris Gesling, Nmstoker, Othiele, Repodiac, Sanjaesc, Sinesthesiam.

Agradecimentos especiais ao meu querido colega, Sebastian Kraus, por me apoiar com equipamentos de gravação de áudio e por ser o mentor criativo por trás do design do logotipo e, é claro, do querido Dominik (@Domcross) por ele estar tão perto do meu lado nesta incrível jornada.

"Thorsten-Voice" no YouTube Channel

No meu canal de Thorsten-Voice YouTube, você pode encontrar o tutorial passo a passo (receitas de cozinha) sobre a tecnologia de voz OpenSource. Se você estiver interessado, ficaria feliz em recebê -lo como novo assinante em minha maravilhosa comunidade do YouTube.ts ** no meu pequeno.

Presidente da conferência

Eu realmente gosto de falar sobre a importância de um futuro de tecnologia de voz OpenSource. Se você gostaria que eu fosse um orador em uma conferência ou evento, ficaria feliz em ser contatado usando o formulário de contato do site de Thorsten-Voice. Veja algumas das minhas referências de alto-falante no site de Thorsten-Voice.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-08-20
tamanho 7.81MB
Vindo de Github

Aplicativos Relacionados

GitHub sgrebnov/cordova plugin background download

2024-11-05
GLM 4 Voice

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
flutter_voice_friend

2024-11-01
Retrieval based Voice Conversion WebUI

2024-11-01
Interface SMS ilimitada do GOOGLE VOICE

2009-11-07

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos