cs224n gpu that talks cs224n gpu that talks

cs224n gpu that talks

AI ソースコード

1.0.0

ダウンロード

注意、私は話しようとしています：エンドツーエンドの音声統合（CS224N '18）

Tachibana et。アル。（2017）。文字のシーケンスが与えられた場合、モデルは2つの段階（Text2MelとSSRN）で一連のスペクトログラムフレームを予測します。

レポートで説明したように、Text2Melが60kステップ、SSRNを100Kステップでトレーニングして、かなりまともなオーディオ品質を得ることができます。これは、LJ音声データセット上の単一のテスラK80 GPUでの約（6+12）時間のトレーニングに対応します。

事前に保護されたモデル：[ダウンロード]サンプル：[Base-Model-M4] [監視なしDecoder-M1]

詳細については、ポスターペーパーを参照してください

使用法：

ディレクトリ構造

 - runs (contains checkpoints and params.json file for each different run. params.json specifies various hyperameters: see params-examples folder)
    - run1/params.json ...
 - src (implementation code package)
 - sentences (contains test sentences in .txt files)
 
train.py
evaluate.py
synthesize.py

../data (directory containing data in format below)
 - FOLDER
    - train.csv, val.csv (files containing [wav_file_name|transcript|normalized_trascript] as in LJ-Speech dataset)
    - wavs (folder containing corresponding .wav audio files)

スクリプトファイル

python <script_file>.py -hで各ファイルを実行して、使用状況の詳細を確認します。

 python train.py <PATH_PARAMS.JSON> <MODE>
python evaluate.py <PATH_PARAMS.JSON> <MODE> 
python synthesize.py <TEXT2MEL_PARAMS> <SSRN_PARAMS> <SENTENCES.txt> (<N_ITER> <SAMPLE_DIR>)

ノートブック：

評価：さまざまな保存されたモデルチェックポイントのトレーニング全体と検証セット全体でモデルの予測を実行し、最終結果を保存します。
デモ：入力文をインタラクティブに入力し、生成された出力オーディオを聞きます。

さらに遠く：

インド言語のデータセットを利用できるデータを少量のさまざまな言語でのトレーニング
初期化として、事前に訓練された「オーディオ言語モデル」を使用して、トレーニングを加速するための半監視方法の使用の調査

参照外部コード：

（SRC/ init.pyから）ユーティリティコードは次のソースから参照されています。他のすべてのコードは著者自身です。

src/data_load.py、dsp_utils.py（変更付き）
https://www.github.com/kyubyong/dc_tts（著者：kyubyong park、@kyubyong）https://github.com/r9y9/deepvoice3_pytorch/blob/master/audio.py（著者： @r9y9）
src/spsi.py（参照）
https://github.com/lonce/spsi_python（著者：@lonce）
src/utils.py（参照）
https://github.com/cs230-stanford/cs230-code-examples https://www.github.com/kyubyong/dc_tts https://github.com/tensorflow/tensor2tensor/blob/master/tensor2tensor/layers/layers/layers/layers/layers/

拡大する

追加情報