WhisperSpeechのダウンロードWhisperSpeechソースコードのダウンロード

WhisperSpeech

AI ソースコード

1.0.0

ダウンロード

ささやき声

質問がある場合、またはサポートしたい場合は、Laion Discordサーバーの＃Audio-Generationチャネルで私たちを見つけることができます。

ささやきを反転させることによって構築されたオープンソースのテキストからスピーチシステム。以前はSpear-Tts-Pytorchとして知られていました。

このモデルは、安定した拡散のように、スピーチのために、強力で簡単にカスタマイズ可能であることを望んでいます。

私たちは適切にライセンスされたスピーチの録音でのみ作業しており、すべてのコードはオープンソースであるため、モデルは商業用アプリケーションに常に安全に使用できます。

現在、モデルはEnglish Librelightデータセットでトレーニングされています。次のリリースでは、複数の言語をターゲットにしたいと考えています（WhisperとEncodecはどちらも多言語です）。

合成された音声のサンプル：

whisperspeech-sample.mp4

進捗アップデート[2024-01-29]

EN+PL+FRデータセットでtiny S2Aモデルを正常にトレーニングし、フランス語で音声クローニングを行うことができます。

fr-voice-clone-2.mp4

fr-voice-clone-1.mp4

英語とポーランド語でのみ訓練された冷凍セマンティックトークンでこれを行うことができました。これは、世界のすべての言語をサポートするために単一のセマンティックトークンモデルをトレーニングできるという考えをサポートしています。現在、ささやきモデルによって十分にサポートされていないものでさえもおそらくそうです。この面での最新情報をお楽しみに。 :)

進捗アップデート[2024-01-18]

先週、推論のパフォーマンスを最適化します。 torch.compileを統合し、KVキャッシングを追加し、いくつかのレイヤーを調整しました。現在、消費者4090でリアルタイムよりも12倍以上作業しています。

言語を単一の文で混ぜることができます（ここでは、ハイライトされた英語のプロジェクト名はシームレスにポーランド語のスピーチに混ざり合っています）：

Pierwszy Test toWielojęZycznegoWhisper Whisper Speech ModeluZamieniającegoTekst NaMowę、 Collabora Laion nauczyli na superkomputerze Jewels 。

pl-en-mix.mp4

また、音声クローニングをテストする簡単な方法も追加しました。ウィンストンチャーチルによる有名なスピーチからクローン化されたサンプル音声は次のとおりです（ラジオスタティックはバグではなく機能です;） - それは参照録音の一部です）：

en-cloning.mp4

これらすべてをColabでテストできます（依存関係を最適化したため、インストールに30秒未満かかります）。ハギングフェイススペースがまもなく登場します。

進捗アップデート[2024-01-10]

高品質のスピーチを生成しながら、はるかに高速な新しいSD S2Aモデルをプッシュしました。また、参照オーディオファイルに基づいて音声クローニングの例を追加しました。

いつものように、あなたは私たちのコラブをチェックして自分で試してみることができます！

進捗アップデート[2023-12-10]

モデルの別のトリオ、今回は複数の言語（英語とポーランド）をサポートしています。スニークピーク用の2つの新しいサンプルを次に示します。あなたは私たちのcolabをチェックして自分で試してみることができます！

英語のスピーチ、女性の声（ポーランド語のデータセットから転送）：

whisperspeech-sample.mp4

ポーランドのサンプル、男性の声：

whisperspeech-sample-pl.mp4

古い進行状況の更新はここにアーカイブされています

ダウンロード

上記のGoogle Colabリンクから開始するか、提供されたノートをローカルに実行することをお勧めします。手動でダウンロードするか、モデルをゼロからトレーニングする場合は、WhisperSpeechの事前訓練モデルと変換されたデータセットの両方がHuggingfaceで利用できます。

ロードマップ

より大きな感情的な音声データセットを集めます
感情と韻律の世代を条件付ける方法を見つけ出す
複数の言語で自由にライセンスされたスピーチを収集するためのコミュニティの努力を作成する
最終的な多言語モデルを訓練します

建築

一般的なアーキテクチャは、Googleの槍TTS、MetaのMusicGenに似ています。 NIH症候群を避け、強力なオープンソースモデルの上に構築しました。Openaiからささやき、セマンティックトークンを生成し、Transcription、Acoustic Modeling for Acoustic ModelingのEncodec、および高品質のボコーダーとしてCharstr IncのVocosを実行します。

WhisperSpeechに2つのプレゼンテーションダイビングを掘り下げました。最初のものは、大規模なトレーニングの課題について説明しています。

スケーリングされたwhisperspeechモデルから80k以上の音声まで学んだトリック - jakubcłapa、collaboraによるビデオ録画

もう1つは、私たちが行った建築の選択にもう少し入ります。

オープンソースのテキストからスピーチプロジェクト：WhisperSpeech-詳細な議論

セマンティックトークンをモデリングするためのささやき

Openai Whisperエンコーダブロックを利用して、埋め込みを生成し、それを計量してセマンティックトークンを取得します。

言語が既にwhisperによってサポートされている場合、このプロセスにはオーディオファイルのみが必要です（グラウンドトゥルースの転写なし）。

セマンティックトークン抽出図にささやきを使用します

アコースティックトークンのモデリング用エンコデック

Encodecを使用して、オーディオ波形をモデル化します。箱から出して、1.5kbpsでリーズナブルな品質を提供し、Encodec Tokensで事前に処理されたボコーダーであるVocosを使用して、これを高品質にすることができます。

encodecブロック図

感謝

Collaboraロゴライオンのロゴ

この作業は、次の寛大なスポンサーシップなしでは不可能です。

Collabora - コード開発とモデルトレーニング
Laion - コミュニティの構築とデータセット（特別な感謝
JülichSupercomputing Center -Juwels Booster SuperComputer

GAUSS Center for Supercomputing EV（www.gauss-centre.eu）は、Jolich Supercuting Center（JSC）のGCSスーパーコンピューターJuwels Booster（JSC）のGCSスーパーコンピューターJuwels Booster（JSC）のコンピューティング（NIC）を通じてコンピューティング時間を通じてコンピューティング時間を提供することにより、この作業の一部に資金を提供してくれたことに感謝しています。

また、このモデルの構築に大きな支援をしてくれた個々の貢献者にも感謝したいと思います。

データセットキュレーションのための避けられない2031（ qwerty_qwer on discord on discord）

コンサルティング

オープンソースと独自のAIプロジェクトの両方を支援することができます。 CollaboraのWebサイトまたはDiscord（および）を介して私たちに連絡することができます

引用

私たちは、多くの驚くべきオープンソースプロジェクトや研究論文に依存しています。

 @article { SpearTTS ,
  title = { Speak, Read and Prompt: High-Fidelity Text-to-Speech with Minimal Supervision } ,
  url = { https://arxiv.org/abs/2302.03540 } ,
  author = { Kharitonov, Eugene and Vincent, Damien and Borsos, Zalán and Marinier, Raphaël and Girgin, Sertan and Pietquin, Olivier and Sharifi, Matt and Tagliasacchi, Marco and Zeghidour, Neil } ,
  publisher = { arXiv } ,
  year = { 2023 } ,
}

 @article { MusicGen ,
  title = { Simple and Controllable Music Generation } , 
  url = { https://arxiv.org/abs/2306.05284 } ,
  author = { Jade Copet and Felix Kreuk and Itai Gat and Tal Remez and David Kant and Gabriel Synnaeve and Yossi Adi and Alexandre Défossez } ,
  publisher = { arXiv } ,
  year = { 2023 } ,
}

 @article { Whisper
  title = { Robust Speech Recognition via Large-Scale Weak Supervision } ,
  url = { https://arxiv.org/abs/2212.04356 } ,
  author = { Radford, Alec and Kim, Jong Wook and Xu, Tao and Brockman, Greg and McLeavey, Christine and Sutskever, Ilya } ,
  publisher = { arXiv } ,
  year = { 2022 } ,
}

 @article { EnCodec
  title = { High Fidelity Neural Audio Compression } ,
  url = { https://arxiv.org/abs/2210.13438 } ,
  author = { Défossez, Alexandre and Copet, Jade and Synnaeve, Gabriel and Adi, Yossi } ,
  publisher = { arXiv } ,
  year = { 2022 } ,
}

 @article { Vocos
  title = { Vocos: Closing the gap between time-domain and Fourier-based neural vocoders for high-quality audio synthesis } , 
  url = { https://arxiv.org/abs/2306.00814 } ,
  author = { Hubert Siuzdak } ,
  publisher = { arXiv } ,
  year = { 2023 } ,
}