WavThruVec_pytorchダウンロードWavThruVec_pytorchソースコードダウンロード

WavThruVec_pytorch

AI ソースコード

1.0.0

ダウンロード

wavthruvec pytorch

Pytorchに基づくWavthruvecの非公式の実装。

元の論文は、神経音声合成の中間特徴としての潜在音声表現です。

建築

Text2Vecモデルは、主にFastSpeech（XCMYZ）アーキテクチャに従います。主にRad-TT（Nvidiaの）に基づいて、モデルを変更しました。また、マルチスピーカー条件のために、スピーカーエンコーダーとしてECAPA_TDNNを追加します。

論文で言及されていないその他の詳細については、Rad-TTSにも従います。

VEC2WAVは主にHIFI-GANに基づいており、条件付きバッチ正規化を導入して、スピーカーの埋め込み上のネットワークを条件付けます。アップサンプルレートシーケンスは（5,4,4,2,2）であるため、アップサンプリング係数は $ Times 320 $ （元の論文はです $ Times 640 $ ）、言い換えれば、生成されたWAVのサンプルレートは16kHz（元の紙で32kHz）のサンプルレートを持っています。

text2vecトレーニング

text2vec推論

vec2wav

入力

テキスト用：

ルールベースのテキストの正規化や音素化方法を使用しないでください。生の文字を供給し、入力としてテキスト埋め込みに変換してください。

オーディオ用：

WAV2VEC 2.0の出力を使用して（MEL Spectrogramの代わりに）WAVの機能として、 'float32'のdtypeと(batch_size, n_frame, n_channel)の形状を使用します。

注：n_channel = 768または1024、TencentgamemateはFairSeq-version（768）とHuggingface-version（1024）を提供するため、使用しているWAV2VEC 2.0の前提型モデルのバージョンに依存します。これらの2つのバージョンの出力形状は異なります。

wav2vec 2.0前処理

このリポジトリからwav2vec2.0（中国の音声前）、そしてそれはハグイングフェイスでも見つけることができます

attn_prior

WavthruvecとFastSpeechの最大の違いの1つは、単調アライメント検索（MAS）モジュールです（ alignment.pyを参照）。

FastSpeechでは、トレーニング入力には、MELフレームとテキストトークンの教師向けのアライメントが含まれます。具体的には、MFAを使用して、トレーニング前に各テキストトークンのMELフレームのdurationを生成することが含まれます。

WAVTHRUVECでは、 durationはRAD-TTSのMASを使用して生成され、長さのレジュレータ（DurationPredictor）に供給されます。

単調なアライメント検索とRAD-TTS実装によれば、モデルをトレーニングすると、 {n_token}_{n_feat}_prior.pthのファイル名形式を使用して、 './data/align_prior'ディレクトリの下でAlignpriorファイルが生成されます。

環境

CUDA 10.1
Python 3.9.7
トーチ1.8.1+Cu101
トーチオプティマイザー0.3.0
Torchaudio 0.8.1
テンソルボード2.12.0
Librosa 0.8.0
Numba 0.56.4
Numpy 1.22.4
llvmlite 0.39.1

データセットと準備

aishell3

prepare_data.py：

1.WAVファイルとWAV2VEC2事前処理されたモデルを読み取り、WAVを16kHzにリゾートし、対応するWAV2VEC 2.0機能を禁止する.npyファイルに変換します。
2.Aishell3転写（content.txt）を読み取り、中国の音素と空白をフィルタリングします。転写とファイルパスを取り、列車リスト（./ data/enc_train.txt）を作成します。
3.文字をトーチ変数に変換するために使用される音声を作成します。

例として、prepare_data.pyスピーカーといくつかのWAVファイルのみを取得します。

トレーニング

wavthruvecは2つのコンポーネントを呼び起こします：text2vec（encoder）とvec2wav（decoder）、そしてそれらは独立してトレーニングします

したがって、それらを2つの別々の監督に配置し、それぞれに異なるトレーニング構成を使用しました。

テンソルボード

テンソルボードロガーはrun/{log_seed}/tb_logsディレクトリに保存されます。 log_seed=1を使用して、このコマンドを使用して、ローカルホストのテンソルボードを提供できます。

 tensorboard --logdir run/1/tb_logs

チェックポイントを保存して復元します

モデルチェックポイントはrun/{log_seed}/model_newディレクトリに保存されます。

10000回の反復ごとにチェックポイントを保存すると、チェックポイントcheckpoint_10000.pth.tarがあるとします。 step 10000でトレーニングを再起動する必要がある場合は、このコマンドを使用してください。

 python ./text2vec/train.py --restore_step 10000

トト

実験とパフォーマンス
実装の詳細

参照

リポジトリ

fastspeech（xcmyz's）
wav2vec2.0（中国の音声プレイン）
rad-tts（nvidia's）
gan-tts（yanggeng1995's）
hifi-gan
FastPitch（Dan-Wells '）
ecapa_tdnn（タオ・ルイジーズ）
ecapa_tdnn（lawlict's）
glow-tts（jaywalnut310's）

紙

fastspeech
fastspeech2
hifi-gan
wav2vec
rad-tts
単調アライメント検索

拡大する

追加情報

バージョン 1.0.0
タイプ AI ソースコード
更新時間 2025-09-14
サイズ 892.77KB
から Github

WavThruVec_pytorch