Thorsten Voiceダウンロード - Thorsten Voice Sourceコードのダウンロード

Thorsten Voice

AI ソースコード

1.0.0

ダウンロード

Thorsten-Voiceロゴ

プロジェクトの動機
個人的なメモ
Thorsten Voiceデータセット
- Thorsten-Voiceデータセット2021.02（ニュートラル）
- Thorsten-Voice Dataset 2021.06（感情的）
- Thorsten-Voice Dataset 2022.10（ニュートラル）
- Thorsten-Voice Dataset 2023.09（Hessisch）
- Thorsten-Voiceデータセットフル44kHz
Thorsten TTS-Models
Thorsten-Voice YouTubeチャンネル
パブリックトークスとカンファレンススピーカー

Thorsten-Voiceプロジェクトの動機

ライセンスが苦労せずに、すべてのプロジェクトで、自由に使用できる、オフラインで働く、高品質のドイツのTTS音声が利用できるはずです。

ThorstenMüllerによる個人的な言葉

私は、すべての人が平等である世界を信じている人としての声を貢献しています。性別、性的指向、宗教、肌の色、出生地の地理協同組合に関係なく。誰もがこの惑星のあらゆる場所で温かく歓迎され、誰でもオープンで無料の知識と教育を利用できるグローバルな世界です。？（ ThorstenMüller ）

私はプロの声の才能ではないことに留意してください。私は自分の声を世界と共有する普通の男です。

ソーシャルメディア

ソーシャルメディアでお気軽にご連絡ください。

プラットフォーム	リンク
YouTube	YouTubeのthorstenvoice
LinkedIn	LinkedInのThorstenMüller
ツイッター	TwitterのThorstenvoice
ハギングフェイス	Huggingfaceのthorstenvoice
Instagram	Instagramのthorstenvoice

ボイスダタセット

私のすべての「Thorsten-Voice」データセットは、Zenodoでリストされ、ダウンロード可能です。 Qoutationは、プロジェクト、製品、または論文でそれらを使用した場合に高く評価されています。

データセット	doiリンク
Thorsten-Voiceデータセット2021.02（ニュートラル）
Thorsten-Voice Dataset 2021.06（感情的）
Thorsten-Voice Dataset 2022.10（ニュートラル）
Thorsten-Voice Dataset 2023.09（Hessisch）

Thorsten-Voiceデータセット2021.02（ニュートラル）

 @dataset{muller_2021_5525342,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {Thorsten-Voice Dataset 2021.02},
  month        = sep,
  year         = 2021,
  note         = {{Please use it to make the world a better place for 
                   whole humankind.}},
  publisher    = {Zenodo},
  version      = {3.0},
  doi          = {10.5281/zenodo.5525342},
  url          = {https://doi.org/10.5281/zenodo.5525342}
}

データセットの概要

ThorstenMüllerが録音
Dominik Kreutzによって最適化されています
ljspeechファイルとディレクトリ構造
22.668記録されたフレーズ（ WAVファイル）
23時間以上の純粋なオーディオ
サンプレート22.050Hz
単核症
-24dBに正規化されました
フレーズの長さ（min / avg / max）：2 /52 /180 chars
開始/終了時に沈黙はありません
1秒あたりのAVG音声char：14
質問マーク付きの文：2.780
感嘆符付きの文章：1.840

データセットの進化

PDFドキュメント（Thorsten Datasetの進化）で説明されているように、このデータセットは3つの記録フェーズで構成されています。

フェーズ1 ：安価なUSBマイクで録音（低品質）
フェーズ2 ：優れたマイクで録音（良質）
フェーズ3 ：同じ良いマイクで録音されたが、より長いフレーズ（> 100 chars）（良質）

データセットサブセットを使用する場合は、どのファイルがどのファイルに属しているかを確認できます。

Thorsten-Voice Dataset 2021.06（感情的）

 @dataset{muller_2021_5525023,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {Thorsten-Voice Dataset 2021.06 emotional},
  month        = sep,
  year         = 2021,
  note         = {{Please use it to make the world a better place for 
                   whole humankind.}},
  publisher    = {Zenodo},
  version      = {2.0},
  doi          = {10.5281/zenodo.5525023},
  url          = {https://doi.org/10.5281/zenodo.5525023}
}

自分で記録されたすべての感情的な録音と私は、フレーズのコンテキストがその感情と一致しなくても、その感情を感じて発音しようとしました。例：眠りにつく直前に、私が持っていたトーンの眠い録音を発音しました。

データセットの概要

ThorstenMüllerが録音
Dominik Kreutzによって最適化されています
300文 * 8感情= 2.400録音
単核症
サンプレート22.050Hz
-24dBに正規化されました
開始/終了時に沈黙はありません
文の長さ：59-148 Chars

Thorsten-Voice Dataset 2022.10（ニュートラル）

こちらのこのデータセットからいくつかのオーディオ録音を聞いてください。

 @dataset{muller_2022_7265581,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {Thorsten-Voice Dataset 2022.10},
  month        = nov,
  year         = 2022,
  publisher    = {Zenodo},
  version      = {1.0},
  doi          = {10.5281/zenodo.7265581},
  url          = {https://doi.org/10.5281/zenodo.7265581}
}

Thorsten-Voice Dataset 2023.09（Hessisch）

 @dataset{muller_2024_10511260,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {Thorsten-Voice Dataset 2023.09 Hessisch},
  month        = jan,
  year         = 2024,
  publisher    = {Zenodo},
  doi          = {10.5281/zenodo.10511260},
  url          = {https://doi.org/10.5281/zenodo.10511260}
}

Thorsten-Voiceデータセットフル44kHz

祝う？ 5年間のThorsten-Voiceプロジェクト（2019年10月氏）私は、Huggingfaceのオールインワンデータセットですべての録音を完全なサンプル（44kHz）でリリースしました！明らかにCC0ライセンスで再び！

https://huggingface.co/datasets/thorsten-voice/tv-44khz-full

 @misc {thorsten_müller_2024,
    author       = { {Thorsten Müller} },
    title        = { TV-44kHz-Full (Revision ff427ec) },
    year         = 2024,
    url          = { https://huggingface.co/datasets/Thorsten-Voice/TV-44kHz-Full },
    doi          = { 10.57967/hf/3290 },
    publisher    = { Hugging Face }
}

TTSモデル

これらのOpenSource音声データセットに基づいて、いくつかのTTS（テキストからスピーチ）モデルは、AI /機械学習テクノロジーを使用してトレーニングされています。

プロジェクトCoqui AI 、 Piper TTS 、およびホームアシスタントによって訓練および使用されている複数のドイツモデルが利用可能です。 Thorsten-Voice Project Webサイトで、それらの使用方法、オーディオサンプル、ビデオチュートリアルの詳細については、詳細をご覧ください。

ここでオーディオサンプルとインストール /使用手順を聞いてください（??）：

ニュートラルTT
感情的なTTS
ヘシシュTTS
Smarthome / Home Assistant

さらに、Silero、Monatis、およびZdisketは、モデルトレーニングにも私の音声データセットを使用しました。 Silero Thorsten-Voiceオーディオサンプルには、より多くのサンプルと詳細があります。詳細については、このcolabノートブックを参照してください。

Zdisketは、WindowsにTTS環境をセットアップするためにTensorvoxと呼ばれるツールを作成し、Monatisが訓練したドイツのTTSモデルを含めました。それを共有してくれてありがとう。 YouTubeで動作しているのをご覧ください。

サポートとありがとう

あなたが私の声の貢献が好きで、OpenSource Voice Technologyの未来のために私の努力をサポートしたい場合は、あなたが好きなら私をサポートすることができます。

Thorsten-Voice YouTubeチャンネルを購読して共有し、ソーシャルメディアプロファイルでフォローしてください
KO-FiまたはGithubスポンサーを使用してお茶を購入してください

この旅で素敵な言葉、サポート、コンピューティングの力で私をサポートしてくれた偉大な人々に感謝したいと思います。

私の親愛なる同僚であるセバスチャンクラウスに感謝します。オーディオ録音装置で私をサポートしてくれたこと、そしてロゴのデザインの背後にある創造的な首謀者であり、もちろんこの驚くべき旅で彼が私のそばにいるために親愛なるドミニク（@domcross）に感謝します。

「Thorsten-Voice」YouTubeチャンネル

Thorsten-Voice YouTubeチャンネルでは、OpenSource Voice Technologyのステップバイステップ（料理レシピ）チュートリアルを見つけることができます。あなたが興味を持っているなら、私のすばらしいYouTubeコミュニティで新しいサブスクライバーとしてあなたを歓迎していただければ幸いです。

カンファレンススピーカー

私は、OpenSource Voice Technologyの未来の重要性について話すのが本当に好きです。会議やイベントのスピーカーになりたい場合は、Thorsten-Voice Webサイトのお問い合わせフォームを使用して連絡を受けてうれしいです。 Thorsten-VoiceのWebサイトで、スピーカーの参照の一部をご覧ください。

拡大する

追加情報