Minimaniaは、テキストからスピーチ(TTS)と音声クローニング機能を提供するWebアプリケーションです。このアプリケーションでは、ディープラーニングモデルを使用して、複数の言語で高品質の音声出力を生成し、生成されたオーディオのピッチ、速度、ボリュームをカスタマイズするオプションを備えています。 MinimaniaのTTSエンジンは、Tacotron 2およびWaveGlowモデルの上に構築されていますが、音声クローニング機能はFastSpeechおよびMelganモデルに基づいています。
Megaリンクをクリックしてデモ:ビデオのリンクを表示します
Mimicmaniaをインストールして使用する前に、以下をダウンロードしてインストールする必要があります。
apt-get install ffmpegコマンドを実行します。sudo apt-get install espeak-ng実行します。sudo apt-get install espeak実行します。さらに、次のセクションで説明したように、必要なモジュールとPythonの依存関係をダウンロードする必要があります。
Mimicmaniaをインストールして実行するには、次の手順に従ってください。
git clone https://github.com/everydaycodings/MimicMania.gitを使用して、このリポジトリをローカルマシンにクローンしますcd MimicManiaを使用してプロジェクトディレクトリに移動しますpython setup.pyを実行して、必要なモジュールをダウンロードします。必要なモジュールは約6 GBであるため、このプロセスには時間がかかる場合があります。pip install -r requirements.txtを実行して、すべてのPython依存関係をダウンロードします。streamlit run app.pyを入力して、Webアプリケーションを開始します。 Mimicmaniaに貢献したい場合は、リポジトリをフォークしてプルリクエストを作成してください。バグの修正、新機能、ドキュメントの改善など、あらゆる種類の貢献を歓迎します。
Mimicmaniaは、さまざまなオープンソースリソースの助けを借りて、Kumar Saksham(EverydayCodings)によって開発されました。
私たちのプロジェクトのリソースとしてテキストからスピーチモデルを提供してくれたCoqui-ai/TTSに特別な感謝を拡大したいと思います。
MimicmaniaはMITライセンスの下でライセンスされています。
Mimicmaniaにご質問や問題がある場合は、hapryCodings @gmail.comまでお問い合わせいただくか、Twitter @everydayCodingsまたはMedium @everydayCodingsでお問い合わせください。
私たちはいつも喜んで助けてくれます!