Thorsten Voice Download - Thorsten Voice Source Code Download

Thorsten Voice

AI-Quellcode

1.0.0

Herunterladen

Thorsten-Voice-Logo

Projektmotivation
Persönliche Anmerkung
Thorsten -Sprachdatensätze
- Thorsten-Voice-Datensatz 2021.02 (neutral)
- Thorsten-Voice-Datensatz 2021.06 (emotional)
- Thorsten-Voice-Datensatz 2022.10 (neutral)
- Thorsten-Voice-Datensatz 2023.09 (Hessisch)
- Thorsten-Voice-Datensatz voller 44 kHz
Thorsten TTS-Modelle
Thorsten-Voice YouTube-Kanal
Öffentliche Gespräche & Konferenzsprecher

Motivation für das Thorsten-Voice-Projekt

Für jedes Projekt sollte eine kostenlose nutzende, offline -funktionierende, hochwertige deutsche TTS -Stimme verfügbar sein, ohne dass eine Lizenz zu kämpfen hat.

Persönliche Worte von Thorsten Müller

Ich beiträgt meine Stimme als Person bei, die an eine Welt glaubt, in der alle Menschen gleich sind. Ohne Geschlecht, sexuelle Orientierung, Religion, Hautfarbe und Geocoordinaten des Geburtsortes. Eine globale Welt, in der jeder auf jedem Ort auf diesem Planeten herzlich willkommen ist und offenes und kostenloses Wissen und Bildung allen zur Verfügung steht. ? ( Thorsten Müller )

Bitte denken Sie daran, dass ich kein professionelles Voice -Talent bin . Ich bin nur ein normaler Typ, der seine Stimme mit der Welt teilt.

Social Media

Fühlen Sie sich frei, mich in den sozialen Medien zu kontaktieren?

Plattform	Link
YouTube	Thorstenvoice auf YouTube
LinkedIn	Thorsten Müller auf LinkedIn
Twitter	Thorstenvoice auf Twitter
Umarmung	Thorstenvoice auf Umarmung
Instagram	Thorstenvoice auf Instagram

Sprachdatensätze

Alle meine "Thorsten-Voice" -Datensätze sind auf Zenodo aufgelistet und heruntergeladen. Qoutation wird sehr geschätzt, falls Sie sie in Ihren Projekten, Produkten oder Papieren verwenden.

Datensatz	Doi link
Thorsten-Voice-Datensatz 2021.02 (neutral)
Thorsten-Voice-Datensatz 2021.06 (emotional)
Thorsten-Voice-Datensatz 2022.10 (neutral)
Thorsten-Voice-Datensatz 2023.09 (Hessisch)

Thorsten-Voice-Datensatz 2021.02 (neutral)

 @dataset{muller_2021_5525342,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {Thorsten-Voice Dataset 2021.02},
  month        = sep,
  year         = 2021,
  note         = {{Please use it to make the world a better place for 
                   whole humankind.}},
  publisher    = {Zenodo},
  version      = {3.0},
  doi          = {10.5281/zenodo.5525342},
  url          = {https://doi.org/10.5281/zenodo.5525342}
}

Datensatzzusammenfassung

Aufgenommen von Thorsten Müller
Optimiert von Dominik Kreutz
LJSpeech -Datei und Verzeichnisstruktur
22.668 aufgezeichnete Phrasen ( WAV -Dateien )
Mehr als 23 Stunden reiner Audio
Probenahme 22.050Hz
Mono
Normalisiert auf -24 dB
Phrasenlänge (min / avg / max): 2 / 52/180 Zeichen
Keine Stille am Anfang/Ende
Avg gesprochene Chars pro Sekunde: 14
Sätze mit Fragezeichen: 2.780
Sätze mit Ausrufezeichen: 1.840

Datensatzentwicklung

Wie im PDF -Dokument (Evolution des Thorsten -Datensatzes) beschrieben, besteht dieser Datensatz aus drei Aufzeichnungsphasen.

Phase 1 : Aufgenommen mit einem billigen USB -Mikrofon ( geringer Qualität )
Phase 2 : Aufgenommen mit einem guten Mikrofon ( gute Qualität )
Phase 3 : aufgezeichnet mit dem gleichen guten Mikrofon, aber längeren Phrasen (> 100 Chars) ( gute Qualität )

Wenn Sie eine Datensatzuntermenge verwenden möchten, können Sie sehen, welche Dateien zu welcher Aufzeichnungsphase in der Aufzeichnungsqualitäts -CSV -Datei gehören.

Thorsten-Voice-Datensatz 2021.06 (emotional)

 @dataset{muller_2021_5525023,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {Thorsten-Voice Dataset 2021.06 emotional},
  month        = sep,
  year         = 2021,
  note         = {{Please use it to make the world a better place for 
                   whole humankind.}},
  publisher    = {Zenodo},
  version      = {2.0},
  doi          = {10.5281/zenodo.5525023},
  url          = {https://doi.org/10.5281/zenodo.5525023}
}

Alle emotionalen Aufnahmen, die von mir selbst aufgezeichnet wurden und ich versuchte, diese Emotion zu fühlen und auszusprechen, auch wenn der Ausdruckskontext nicht mit dieser Emotion übereinstimmt. Beispiel: Ich habe die schläfrigen Aufnahmen in dem Ton ausgesprochen, den ich kurz vor dem Einschlafen habe.

Datensatzzusammenfassung

Aufgenommen von Thorsten Müller
Optimiert von Dominik Kreutz
300 Sätze * 8 Emotionen = 2.400 Aufnahmen
Mono
Probenahme 22.050Hz
Normalisiert auf -24 dB
Keine Stille am Anfang/Ende
Satzlänge: 59 - 148 Zeichen

Thorsten-Voice-Datensatz 2022.10 (neutral)

Hören Sie sich hier einige Audioaufnahmen aus diesem Datensatz an.

 @dataset{muller_2022_7265581,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {Thorsten-Voice Dataset 2022.10},
  month        = nov,
  year         = 2022,
  publisher    = {Zenodo},
  version      = {1.0},
  doi          = {10.5281/zenodo.7265581},
  url          = {https://doi.org/10.5281/zenodo.7265581}
}

Thorsten-Voice-Datensatz 2023.09 (Hessisch)

 @dataset{muller_2024_10511260,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {Thorsten-Voice Dataset 2023.09 Hessisch},
  month        = jan,
  year         = 2024,
  publisher    = {Zenodo},
  doi          = {10.5281/zenodo.10511260},
  url          = {https://doi.org/10.5281/zenodo.10511260}
}

Thorsten-Voice-Datensatz voller 44 kHz

Feiern? 5 Jahre Thorsten-Voice Project (Est. Oktober 2019) Ich habe alle Aufnahmen in einem vollständigen Probenplan (44 kHz) in einem All-in-One-Datensatz auf dem Suggingface veröffentlicht! Offensichtlich wieder in der CC0 -Lizenz!

https://huggingface.co/datasets/thorsten-voice/tv-44khz-full

 @misc {thorsten_müller_2024,
    author       = { {Thorsten Müller} },
    title        = { TV-44kHz-Full (Revision ff427ec) },
    year         = 2024,
    url          = { https://huggingface.co/datasets/Thorsten-Voice/TV-44kHz-Full },
    doi          = { 10.57967/hf/3290 },
    publisher    = { Hugging Face }
}

TTS -Modelle

Basierend auf diesen OpenSource -Sprachdatensätzen wurden mehrere TTS -Modelle (Text zu Sprache) mithilfe der KI / maschinellen Lerntechnologie trainiert.

Es gibt mehrere deutsche Modelle, die von den Projekten Coqui AI , Piper TTS und Home Assistant ausgebildet und verwendet werden. Weitere Informationen zur Verwendung von Audio-Samples und Video-Tutorials finden Sie auf der Website von Thorsten-Voice.

Hören Sie sich Audio -Samples und Installations- / Nutzungsanweisungen hier an (??):

Neutrale TTs
Emotionale TTs
Hessische TTS
Smarthome / Home Assistent

Außerdem verwendeten Silero, Monatis und Zdisket auch meine Sprachdatensätze für das Modelltraining. Weitere Proben und Details finden Sie in Silero Thorsten-Voice-Audio-Proben. Weitere Informationen finden Sie in diesem Colab -Notizbuch.

Zdisket erstellte ein Tool namens Tensorvox, um eine TTS -Umgebung unter Windows einzurichten, und enthielt ein deutsches TTS -Modell, das von Monatis trainiert wurde. Danke, dass du das geteilt hast. Sehen Sie es in Aktion auf YouTube.

Support & Danke

Wenn Sie meinen Sprachbeitrag mögen und meine Bemühungen für eine OpenSource -Sprachtechnologie -Zukunft unterstützen möchten, können Sie mich unterstützen, wenn Sie möchten:

Abonnieren und teilen Sie meinen YouTube-Kanal von Thorsten-Voice und folgen Sie mir in meinen Social-Media-Profilen
Kaufen Sie mir einen Tee mit Ko-Fi- oder Github-Sponsor

Ich möchte mich bei großartigen Leuten bedanken, die mich auf dieser Reise mit netten Worten, Unterstützung und Berechnung der Kraft unterstützt haben: Danke El-Tocino, Eren Gölge, Gras64, Kris Gesling, Nmstoker, Othiele, Repodiac, Sanjaesc, Synästhesesim.

Besonderer Dank geht an meinen lieben Kollegen Sebastian Kraus, dass er mich mit Audio -Aufnahmegementen unterstützt und der kreative Mastermind hinter dem Logo -Design und natürlich an den lieben Dominik (@Domcross) ist, weil er auf dieser erstaunlichen Reise so nah an meiner Seite ist.

"Thorsten-Voice" YouTube-Kanal

Auf meinem YouTube-Kanal von Thorsten-Voice finden Sie ein Schritt-für-Schritt-Tutorial (Kochrezepte) zur OpenSource-Sprachtechnologie. Wenn Sie interessiert sind, würde ich Sie gerne als neuer Abonnent in meiner wundervollen YouTube -Community begrüßen.

Konferenzredner

Ich spreche wirklich gerne über die Wichtigkeit einer OpenSource -Voice -Technologie -Zukunft. Wenn Sie möchten, dass ich ein Sprecher auf einer Konferenz oder Veranstaltung bin, würde ich gerne mit dem Kontaktformular für die Website von Thorsten-Voice kontaktiert werden. Sehen Sie sich einige meiner Referenzen auf der Website von Thorsten-Voice an.

Expandieren

Zusätzliche Informationen