fastVC
1.0.0
FASTVCは、高速で効率的で、パラレルではない、任意の音声変換(VC)ツールです。 VCは、ソーススピーカーの音声の変更を伴い、文の言語内容を変更せずに、ターゲットスピーカーの音声のように聞こえます。当社のツールは、自動音声認識(ASR)モデルとテキストからスピーチ(TTS)モデルをカスケードすることにより、タスクを活用します。

ASRはWAV2VEC 2.0に基づいており、ソーススピーカーからの音声を転写するために使用されます。 TTSはSV2TTSに基づいており、ターゲットスピーカーの埋め込みから出力音声を生成するために使用されます。
より詳細な説明については、プロジェクトの論文をご覧ください。デモページはこちらから入手できます。
ソフトウェアは、 python 3.9.4を使用して実装されました
git clone https://github.com/fmiotello/fastVC.git )をクローンし、ディレクトリ( cd fastVC )を入力しますpython -m venv envおよびsource env/bin/activate (macos/linuxを使用する場合)または.envScriptsactivate (Windowsを使用する場合)python -m pip install --upgrade pippython -m pip install -r requirements.txt ./src/encoder/saved_models/pretrained.pt
./src/synthesizer/saved_models/pretrained/pretrained.pt
./src/vocoder/saved_models/pretrained/pretrained.pt
python src/main.py (使用可能なオプションを表示するために--help )。出力オーディオは./src/audio/audio_out.wavになります。詳細については、こちらをご覧ください。
このアプリケーションは、Politecnico di Milano(音楽および音響工学の修士課程)のプロジェクトとして開発されました。
ルイージ・アトレス
Federico Miotello
Eugenio Poliuti