WhisperSpeech Download - WhisperSpeech -Quellcode herunterladen

WhisperSpeech

AI-Quellcode

1.0.0

Herunterladen

Flüstern

Wenn Sie Fragen haben oder Ihnen helfen möchten, können Sie uns auf dem Laion Discord-Server auf dem #Audio-Generation-Kanal finden.

Ein Open-Source-Text-zu-Sprach-System, das von Inverting Whisper erstellt wurde. Früher als Spear-TTS-Pytorch bekannt.

Wir möchten, dass dieses Modell wie eine stabile Diffusion ist, aber für die Sprache - sowohl leistungsstark als auch leicht anpassbar.

Wir arbeiten nur mit ordnungsgemäß lizenzierten Sprachaufzeichnungen und der gesamte Code ist Open Source, sodass das Modell für kommerzielle Anwendungen immer sicher zu verwenden ist.

Derzeit werden die Modelle im englischen Datensatz von Lubinight geschult. In der nächsten Veröffentlichung möchten wir mehrere Sprachen ansprechen (Whisper und Encodec sind beide Multilanguage).

Probe der synthetisierten Stimme:

wisperSpeech-sample.mp4

Fortschritts-Update [2024-01-29]

Wir haben ein tiny S2A -Modell erfolgreich auf einem EN+PL+FR -Datensatz ausgebildet, und es kann das Klonen von Sprachklonen auf Französisch machen:

FR-Voice-Clone-2.mp4

FR-VOICE-CLONE-1.MP4

Wir konnten dies mit gefrorenen semantischen Token tun, die nur auf Englisch und Politur trainiert wurden. Dies unterstützt die Idee, dass wir in der Lage sein werden, ein einziges semantisches Token -Modell zu schulen, um alle Sprachen der Welt zu unterstützen. Sehr wahrscheinlich sogar solche, die vom Whisper -Modell derzeit nicht gut unterstützt werden. Weitere Updates an dieser Front. :)

Fortschritts-Update [2024-01-18]

Wir verbringen die letzte Woche damit, die Inferenzleistung zu optimieren. Wir haben torch.compile integriert, KV-Caching hinzugefügt und einige der Schichten abgestimmt-wir arbeiten jetzt schneller als in Echtzeit bei einem Verbraucher 4090!

Wir können Sprachen in einem einzigen Satz mischen (hier werden die hervorgehobenen englischen Projektnamen nahtlos in die polnische Sprache gemischt):

Zum Scherz Pierwszy Test Wielojęzycznego Whisper Speech Modelu Zamieniającego tekst na Mowę, Który Collabora i Laion nauczyli na Superkomputerze Jewels .

pl-en-mix.mp4

Wir haben auch eine einfache Möglichkeit hinzugefügt, das Sprachkloning zu testen. Hier ist eine Beispielstimme, die von einer berühmten Rede von Winston Churchill (The Radio Static ist ein Merkmal, kein Fehler;) - sie ist Teil der Referenzaufzeichnung) geklont: es ist Teil der Referenzaufzeichnung):

en-cloning.mp4

Sie können all dies auf Colab testen (wir haben die Abhängigkeiten optimiert, sodass die Installation weniger als 30 Sekunden dauert). In Kürze kommt ein Umarmungsraum.

Fortschritts-Update [2024-01-10]

Wir haben ein neues SD S2A-Modell vorangetrieben, das viel schneller ist und gleichzeitig eine hochwertige Sprache erzeugt. Wir haben auch ein Beispiel für das Sprachklonen auf der Grundlage einer Referenz -Audio -Datei hinzugefügt.

Wie immer können Sie unser Colab überprüfen, um es selbst zu probieren!

Fortschritts-Update [2023-12-10]

Ein weiteres Trio von Models, diesmal, unterstützen sie mehrere Sprachen (Englisch und Politur). Hier sind zwei neue Muster für einen kleinen Einblick. Sie können unser Colab überprüfen, um es selbst zu probieren!

Englische Sprache, weibliche Stimme (übertragen aus einem polnischen Sprachdatensatz):

wisperSpeech-sample.mp4

Eine polnische Probe, männliche Stimme:

wisperSpeech-sample-pl.mp4

Ältere Fortschrittsaktualisierungen werden hier archiviert

Downloads

Wir empfehlen Ihnen, mit dem Google Colab -Link oben zu beginnen oder das bereitgestellte Notebook lokal auszuführen. Wenn Sie manuell herunterladen oder die Modelle von Grund auf neu trainieren möchten, sind sowohl die vorgebildeten Modelle von WhisperSpeech als auch die konvertierten Datensätze auf Huggingface verfügbar.

Roadmap

Sammeln Sie einen größeren emotionalen Sprachdatensatz
Finden Sie einen Weg heraus, die Generation auf Emotionen und Prosodie zu stören
Erstellen Sie eine Gemeinschaftsanstrengung, um in mehreren Sprachen frei lizenzierte Sprache zu sammeln
Trainieren endgültige multisprachige Modelle

Architektur

Die allgemeine Architektur ähnelt Audiolm, Speer -TTs von Google und MusicGen von Meta. Wir haben das NIH-Syndrom vermieden und auf leistungsstarken Open Source-Modellen: Whisper von OpenAI gebaut, um semantische Token zu erzeugen und Transkription aus Meta für akustische Modellierung und Vocos von Charactr Inc als hochwertiger Vokoder durchzuführen.

Wir gaben zwei Präsentationen, die tiefer in Whisperspeech tauchten. Der erste spricht über die Herausforderungen des großen Trainings:

Tricks, die aus Skaling -Whisperspeech -Modellen bis zu 80 km+ Stunden Sprache gelernt werden - Videoaufzeichnung von Jakub Cłapa, COMPOSELA

Der andere ist ein bisschen mehr in die architektonischen Entscheidungen, die wir getroffen haben:

Open-Source-Text-zu-Sprach-Projekte: Whisperspeech-Tiefe Diskussion

Flüstere für die Modellierung semantischer Token

Wir verwenden den Openai Whisper -Encoder -Block, um Einbettungen zu erzeugen, die wir dann quantisieren, um semantische Token zu erhalten.

Wenn die Sprache bereits von Whisper unterstützt wird, erfordert dieser Vorgang nur Audiodateien (ohne Grundwahrheitsübertragungen).

Verwenden Sie Flüsterung für semantisches Token -Extraktionsdiagramm

Encodec für die Modellierung von Akustik -Token

Wir verwenden CCODEC, um die Audio -Wellenform zu modellieren. Aus der Schachtel liefert es eine angemessene Qualität bei 1,5 kbit / s, und wir können diese mit Vocos-einem Vocoder-Vocer-Vocoder, der auf CCODEC-Token vorbereitet ist, auf hohe Qualität bringen.

CCODEC -Blockdiagramm

Anerkennung

Collabora Logo Laion Logo

Diese Arbeit wäre ohne die großzügigen Sponsoring von:

COMPOSELA - Codeentwicklung und Modelltraining
Laion - Community Building und Datensätze (besonderer Dank an
Jülich Supercomputing Center - Juwels Booster Supercomputer

Wir danken dem Gauß-Zentrum für Supercomputing EV (www.gauss-centre.eu) für die Finanzierung eines Teils dieser Arbeiten, indem wir über das John von Neumann Institute for Computing (NIC) in der GCS-Supercomputer-Juwels-Booster-Booster bei Jüloich Supercomputing Center (JSCS-Supercomputer-Supercomputer-Supercomputer-Juwels-Juwel-Cooperations-Modell-Forschungsarbeiten) eine Rechenzeit bereitstellen.

Wir möchten auch den individuellen Mitwirkenden für ihre große Hilfe beim Aufbau dieses Modells danken:

unvermeidlich-2031 ( qwerty_qwer über Discord) für die Datensatzkuration

Beratung

Wir können Ihnen sowohl bei Open Source- als auch bei proprietären KI -Projekten helfen. Sie können uns über die Collabora -Website oder auf Discord (und) erreichen

Zitate

Wir verlassen uns auf viele erstaunliche Open -Source -Projekte und Forschungsarbeiten:

 @article { SpearTTS ,
  title = { Speak, Read and Prompt: High-Fidelity Text-to-Speech with Minimal Supervision } ,
  url = { https://arxiv.org/abs/2302.03540 } ,
  author = { Kharitonov, Eugene and Vincent, Damien and Borsos, Zalán and Marinier, Raphaël and Girgin, Sertan and Pietquin, Olivier and Sharifi, Matt and Tagliasacchi, Marco and Zeghidour, Neil } ,
  publisher = { arXiv } ,
  year = { 2023 } ,
}

 @article { MusicGen ,
  title = { Simple and Controllable Music Generation } , 
  url = { https://arxiv.org/abs/2306.05284 } ,
  author = { Jade Copet and Felix Kreuk and Itai Gat and Tal Remez and David Kant and Gabriel Synnaeve and Yossi Adi and Alexandre Défossez } ,
  publisher = { arXiv } ,
  year = { 2023 } ,
}

 @article { Whisper
  title = { Robust Speech Recognition via Large-Scale Weak Supervision } ,
  url = { https://arxiv.org/abs/2212.04356 } ,
  author = { Radford, Alec and Kim, Jong Wook and Xu, Tao and Brockman, Greg and McLeavey, Christine and Sutskever, Ilya } ,
  publisher = { arXiv } ,
  year = { 2022 } ,
}

 @article { EnCodec
  title = { High Fidelity Neural Audio Compression } ,
  url = { https://arxiv.org/abs/2210.13438 } ,
  author = { Défossez, Alexandre and Copet, Jade and Synnaeve, Gabriel and Adi, Yossi } ,
  publisher = { arXiv } ,
  year = { 2022 } ,
}

 @article { Vocos
  title = { Vocos: Closing the gap between time-domain and Fourier-based neural vocoders for high-quality audio synthesis } , 
  url = { https://arxiv.org/abs/2306.00814 } ,
  author = { Hubert Siuzdak } ,
  publisher = { arXiv } ,
  year = { 2023 } ,
}