
Motivación del proyecto
Nota personal
Conjuntos de datos de voz de Thorsten
Modelos de tts tts
Canal de youtube de Thorsten Voice
Talas públicas y orador de la conferencia
Una voz TTS alemana de trabajo gratuita , fuera de línea y de alta calidad debe estar disponible para cada proyecto sin ninguna licencia.
Contribuyo mi voz como una persona que cree en un mundo donde todas las personas son iguales. No sean de género, orientación sexual, religión, color de la piel y geocoordinados de la ubicación de nacimiento. Un mundo global donde todos son cálidamente bienvenidos en cualquier lugar de este planeta y el conocimiento y la educación abiertos y gratuitos están disponibles para todos. ? ( Thorsten Müller )
Tenga en cuenta que no soy un talento de voz profesional . Solo soy un tipo normal que comparte su voz con el mundo.
¿No dudes en contactarme en las redes sociales?
| Plataforma | Enlace |
|---|---|
| YouTube | Thorstenvoice en YouTube |
| Thorsten Müller en LinkedIn | |
| Gorjeo | Thorstenvoice en Twitter |
| Cara de abrazo | Thorstenvoice en Huggingface |
| Thorstenvoice en Instagram |
Todos mis conjuntos de datos "Thorsten-Voice" están enumerados y descargables en Zenodo. Qoutation es muy apreciado en caso de que los use en sus proyectos, productos o documentos.
| Conjunto de datos | Enlace doi |
|---|---|
| DataSet de Voice de Thorsten 2021.02 (neutral) | |
| DataSet de Voice de Thorsten 2021.06 (emocional) | |
| DataSet de Voice de Thorsten 2022.10 (neutral) | |
| DataSet de Voice de Thorsten 2023.09 (Hessisch) |
@dataset{muller_2021_5525342,
author = {Müller, Thorsten and
Kreutz, Dominik},
title = {Thorsten-Voice Dataset 2021.02},
month = sep,
year = 2021,
note = {{Please use it to make the world a better place for
whole humankind.}},
publisher = {Zenodo},
version = {3.0},
doi = {10.5281/zenodo.5525342},
url = {https://doi.org/10.5281/zenodo.5525342}
}
Como se describe en el documento PDF (evolución del conjunto de datos de Thorsten), este conjunto de datos consta de tres fases de grabación.
Si desea utilizar un subconjunto de conjunto de datos, puede ver qué archivos pertenecen a qué fase de grabación en el archivo CSV de calidad de grabación.
@dataset{muller_2021_5525023,
author = {Müller, Thorsten and
Kreutz, Dominik},
title = {Thorsten-Voice Dataset 2021.06 emotional},
month = sep,
year = 2021,
note = {{Please use it to make the world a better place for
whole humankind.}},
publisher = {Zenodo},
version = {2.0},
doi = {10.5281/zenodo.5525023},
url = {https://doi.org/10.5281/zenodo.5525023}
}
Todas las grabaciones emocionales donde yo mismo registró y yo tratamos de sentir y pronunciar esa emoción, incluso si el contexto de frase no coincide con esa emoción. Ejemplo: pronuncié las grabaciones somnolientas en el tono que tengo poco antes de quedarme dormido.
Escuche algunas grabaciones de audio de este conjunto de datos aquí.
@dataset{muller_2022_7265581,
author = {Müller, Thorsten and
Kreutz, Dominik},
title = {Thorsten-Voice Dataset 2022.10},
month = nov,
year = 2022,
publisher = {Zenodo},
version = {1.0},
doi = {10.5281/zenodo.7265581},
url = {https://doi.org/10.5281/zenodo.7265581}
}
@dataset{muller_2024_10511260,
author = {Müller, Thorsten and
Kreutz, Dominik},
title = {Thorsten-Voice Dataset 2023.09 Hessisch},
month = jan,
year = 2024,
publisher = {Zenodo},
doi = {10.5281/zenodo.10511260},
url = {https://doi.org/10.5281/zenodo.10511260}
}
Celebrando? 5 años del proyecto Thorsten-Voice (Est. Octubre de 2019) Lancé todas las grabaciones en un muestreo completo (44 kHz) en un conjunto de datos todo en uno en? ¡Huggingface! ¡Obviamente nuevamente en la licencia CC0!
@misc {thorsten_müller_2024,
author = { {Thorsten Müller} },
title = { TV-44kHz-Full (Revision ff427ec) },
year = 2024,
url = { https://huggingface.co/datasets/Thorsten-Voice/TV-44kHz-Full },
doi = { 10.57967/hf/3290 },
publisher = { Hugging Face }
}
Según estos conjuntos de datos de voz de OpenSource, se han capacitado varios modelos TTS (texto al habla) utilizando tecnología de aprendizaje automático / IA / Machine.
Hay múltiples modelos alemanes disponibles capacitados y utilizados por Projects Coqui AI , Piper TTS y Home Assistant . Puede encontrar más información sobre cómo usarlos, muestras de audio y tutoriales en video en el sitio web del Proyecto Thorsten-Voice.
Escuche muestras de audio e instrucciones de instalación / uso aquí (??):
Además, Silero, Monatis y Zdisket también usaron mis conjuntos de datos de voz para el entrenamiento de modelos. Se pueden encontrar más muestras y detalles en las muestras de audio Silero Thorsten-Voice. Vea este cuaderno Colab para obtener más detalles.
ZDisket hizo una herramienta llamada TensorVox para configurar un entorno TTS en Windows e incluyó un modelo TTS alemán capacitado por Monatis. Gracias por compartir eso. Véalo en acción en YouTube.
Si le gusta mi contribución de voz y desea apoyar mi esfuerzo para un futuro de tecnología de voz de OpenSource, puede apoyarme, si lo desea:
Quiero agradecer a las grandes personas que me apoyaron en este viaje con buenas palabras, apoyo y poder de cálculo: gracias El-Tocino, Eren Gölge, Gras64, Kris Gesling, Nmstoker, Othiele, Repodiac, Sanjaesc, Synesthesiam.
Un agradecimiento especial a mi querido colega, Sebastian Kraus, por apoyarme con equipos de grabación de audio y por ser el autor intelectual creativo detrás del diseño del logotipo y, por supuesto, para el querido Dominik (@Domcross) porque él está tan cerca de mi lado a este increíble viaje.
En mi canal de YouTube de Thorsten Voice, puede encontrar el tutorial paso a paso (recetas de cocina) sobre la tecnología de voz de OpenSource. Si está interesado, estaría encantado de darle la bienvenida como un nuevo suscriptor en mi maravillosa comunidad de YouTube.ts ** en mi pequeña.
Realmente me gusta hablar sobre la importancia de un futuro de tecnología de voz de OpenSource. Si desea que sea orador en una conferencia o evento, me complace que me contactaran utilizando el formulario de contacto del sitio web de Voice de Thorsten. Vea algunas de las referencias de mis oradores en el sitio web de Thorsten-Voice.