Descarga Thorsten Voice - Descargar el código fuente de Thorsten Voice

Thorsten Voice

Código Fuente de IA

1.0.0

Descargar

Logotipo de Thorsten-Voice

Motivación del proyecto
Nota personal
Conjuntos de datos de voz de Thorsten
- DataSet de Voice de Thorsten 2021.02 (neutral)
- DataSet de Voice de Thorsten 2021.06 (emocional)
- DataSet de Voice de Thorsten 2022.10 (neutral)
- DataSet de Voice de Thorsten 2023.09 (Hessisch)
- Conjunto de datos de voticia de Thorsten 44 kHz completo
Modelos de tts tts
Canal de youtube de Thorsten Voice
Talas públicas y orador de la conferencia

Motivación para el proyecto Thorsten-Voice

Una voz TTS alemana de trabajo gratuita , fuera de línea y de alta calidad debe estar disponible para cada proyecto sin ninguna licencia.

Palabras personales de Thorsten Müller

Contribuyo mi voz como una persona que cree en un mundo donde todas las personas son iguales. No sean de género, orientación sexual, religión, color de la piel y geocoordinados de la ubicación de nacimiento. Un mundo global donde todos son cálidamente bienvenidos en cualquier lugar de este planeta y el conocimiento y la educación abiertos y gratuitos están disponibles para todos. ? ( Thorsten Müller )

Tenga en cuenta que no soy un talento de voz profesional . Solo soy un tipo normal que comparte su voz con el mundo.

Redes sociales

¿No dudes en contactarme en las redes sociales?

Plataforma	Enlace
YouTube	Thorstenvoice en YouTube
LinkedIn	Thorsten Müller en LinkedIn
Gorjeo	Thorstenvoice en Twitter
Cara de abrazo	Thorstenvoice en Huggingface
Instagram	Thorstenvoice en Instagram

Datasets de voz

Todos mis conjuntos de datos "Thorsten-Voice" están enumerados y descargables en Zenodo. Qoutation es muy apreciado en caso de que los use en sus proyectos, productos o documentos.

Conjunto de datos	Enlace doi
DataSet de Voice de Thorsten 2021.02 (neutral)
DataSet de Voice de Thorsten 2021.06 (emocional)
DataSet de Voice de Thorsten 2022.10 (neutral)
DataSet de Voice de Thorsten 2023.09 (Hessisch)

DataSet de Voice de Thorsten 2021.02 (neutral)

 @dataset{muller_2021_5525342,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {Thorsten-Voice Dataset 2021.02},
  month        = sep,
  year         = 2021,
  note         = {{Please use it to make the world a better place for 
                   whole humankind.}},
  publisher    = {Zenodo},
  version      = {3.0},
  doi          = {10.5281/zenodo.5525342},
  url          = {https://doi.org/10.5281/zenodo.5525342}
}

Resumen del conjunto de datos

Grabado por Thorsten Müller
Optimizado por Dominik Kreutz
Archivo ljspeech y estructura de directorio
22.668 frases grabadas ( archivos wav )
Más de 23 horas de audio puro
Muesterar 22.050Hz
Mononucleosis infecciosa
Normalizado a -24dB
Longitud de la frase (min / avg / max): 2/52 / 180 chars
No hay silencio al principio/finalización
AVG habló caracteres por segundo: 14
Oraciones con signo de interrogación: 2.780
Oraciones con marca de exclamación: 1.840

Evolución del conjunto de datos

Como se describe en el documento PDF (evolución del conjunto de datos de Thorsten), este conjunto de datos consta de tres fases de grabación.

Fase 1 : registrado con un micrófono USB barato ( baja calidad )
Fase 2 : registrado con un buen micrófono ( buena calidad )
Fase 3 : registrado con el mismo micrófono bueno pero frases más largas (> 100 caracteres) ( buena calidad )

Si desea utilizar un subconjunto de conjunto de datos, puede ver qué archivos pertenecen a qué fase de grabación en el archivo CSV de calidad de grabación.

DataSet de Voice de Thorsten 2021.06 (emocional)

 @dataset{muller_2021_5525023,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {Thorsten-Voice Dataset 2021.06 emotional},
  month        = sep,
  year         = 2021,
  note         = {{Please use it to make the world a better place for 
                   whole humankind.}},
  publisher    = {Zenodo},
  version      = {2.0},
  doi          = {10.5281/zenodo.5525023},
  url          = {https://doi.org/10.5281/zenodo.5525023}
}

Todas las grabaciones emocionales donde yo mismo registró y yo tratamos de sentir y pronunciar esa emoción, incluso si el contexto de frase no coincide con esa emoción. Ejemplo: pronuncié las grabaciones somnolientas en el tono que tengo poco antes de quedarme dormido.

Resumen del conjunto de datos

Grabado por Thorsten Müller
Optimizado por Dominik Kreutz
300 oraciones * 8 emociones = 2.400 grabaciones
Mononucleosis infecciosa
Muesterar 22.050Hz
Normalizado a -24dB
No hay silencio al principio/finalización
Longitud de la oración: 59 - 148 caracteres

DataSet de Voice de Thorsten 2022.10 (neutral)

Escuche algunas grabaciones de audio de este conjunto de datos aquí.

 @dataset{muller_2022_7265581,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {Thorsten-Voice Dataset 2022.10},
  month        = nov,
  year         = 2022,
  publisher    = {Zenodo},
  version      = {1.0},
  doi          = {10.5281/zenodo.7265581},
  url          = {https://doi.org/10.5281/zenodo.7265581}
}

DataSet de Voice de Thorsten 2023.09 (Hessisch)

 @dataset{muller_2024_10511260,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {Thorsten-Voice Dataset 2023.09 Hessisch},
  month        = jan,
  year         = 2024,
  publisher    = {Zenodo},
  doi          = {10.5281/zenodo.10511260},
  url          = {https://doi.org/10.5281/zenodo.10511260}
}

Conjunto de datos de voticia de Thorsten 44 kHz completo

Celebrando? 5 años del proyecto Thorsten-Voice (Est. Octubre de 2019) Lancé todas las grabaciones en un muestreo completo (44 kHz) en un conjunto de datos todo en uno en? ¡Huggingface! ¡Obviamente nuevamente en la licencia CC0!

https://huggingface.co/datasets/thorsten-voice/tv-44khz-full

 @misc {thorsten_müller_2024,
    author       = { {Thorsten Müller} },
    title        = { TV-44kHz-Full (Revision ff427ec) },
    year         = 2024,
    url          = { https://huggingface.co/datasets/Thorsten-Voice/TV-44kHz-Full },
    doi          = { 10.57967/hf/3290 },
    publisher    = { Hugging Face }
}

Modelos TTS

Según estos conjuntos de datos de voz de OpenSource, se han capacitado varios modelos TTS (texto al habla) utilizando tecnología de aprendizaje automático / IA / Machine.

Hay múltiples modelos alemanes disponibles capacitados y utilizados por Projects Coqui AI , Piper TTS y Home Assistant . Puede encontrar más información sobre cómo usarlos, muestras de audio y tutoriales en video en el sitio web del Proyecto Thorsten-Voice.

Escuche muestras de audio e instrucciones de instalación / uso aquí (??):

TTS neutral
TTS emocional
Hessisches TTS
Smarthome / Asistente de casa

Además, Silero, Monatis y Zdisket también usaron mis conjuntos de datos de voz para el entrenamiento de modelos. Se pueden encontrar más muestras y detalles en las muestras de audio Silero Thorsten-Voice. Vea este cuaderno Colab para obtener más detalles.

ZDisket hizo una herramienta llamada TensorVox para configurar un entorno TTS en Windows e incluyó un modelo TTS alemán capacitado por Monatis. Gracias por compartir eso. Véalo en acción en YouTube.

Apoyo y gracias

Si le gusta mi contribución de voz y desea apoyar mi esfuerzo para un futuro de tecnología de voz de OpenSource, puede apoyarme, si lo desea:

Suscríbase y comparta mi canal de YouTube de Voice de Thorsten y sígueme en mis perfiles de redes sociales
Cómprame un té usando Ko-Fi o Github Patroconor

Quiero agradecer a las grandes personas que me apoyaron en este viaje con buenas palabras, apoyo y poder de cálculo: gracias El-Tocino, Eren Gölge, Gras64, Kris Gesling, Nmstoker, Othiele, Repodiac, Sanjaesc, Synesthesiam.

Un agradecimiento especial a mi querido colega, Sebastian Kraus, por apoyarme con equipos de grabación de audio y por ser el autor intelectual creativo detrás del diseño del logotipo y, por supuesto, para el querido Dominik (@Domcross) porque él está tan cerca de mi lado a este increíble viaje.

Canal de YouTube "Thorsten-Voice"

En mi canal de YouTube de Thorsten Voice, puede encontrar el tutorial paso a paso (recetas de cocina) sobre la tecnología de voz de OpenSource. Si está interesado, estaría encantado de darle la bienvenida como un nuevo suscriptor en mi maravillosa comunidad de YouTube.ts ** en mi pequeña.

Altavoz de la conferencia

Realmente me gusta hablar sobre la importancia de un futuro de tecnología de voz de OpenSource. Si desea que sea orador en una conferencia o evento, me complace que me contactaran utilizando el formulario de contacto del sitio web de Voice de Thorsten. Vea algunas de las referencias de mis oradores en el sitio web de Thorsten-Voice.

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-08-20
tamaño 7.81MB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
GLM 4 Voice

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
flutter_voice_friend

2024-11-01
Retrieval based Voice Conversion WebUI

2024-11-01
Interfaz SMS ilimitada de GOOGLE VOICE

2009-11-07

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo