ドイツのタコトロン2とTFライト推論サポートを備えたテンソルフローのマルチバンドメルガン
Googleは、Google Cloud Creditを提供することにより、この作業をサポートしました。オープンソースをサポートしてくれてありがとうGoogle! ?
私は、ドイツの前提条件のテキスト(TTS)モデルのTacotron 2とMulti-Band Melganをリリースしています。 saved_modelおよびTF Lite形式の推論をサポートし、すべてのモデルはTensorflow Hubにあります。
あなたがそれが何かに役立つと思うなら、議論で挨拶してください。
saved_modelを使用して推測するinference.pyを参照してください。TF Liteで推測するには、 inference_tflite.py参照してください。e2e-notebook.ipynbを参照して、これらのモデル形式にどのようにエクスポートしたかを確認してください。ThorstenMüllerによるThorsten Datasetでこれらのモデルを訓練しました。 Creative Commons Zero V1 Universal(CC0)の条件の下でライセンスされています。これは、著作権を完全にオプトアウトし、作業が最も広い範囲であることを確認するために使用されます。 @thorstenmuellerに、コミュニティに大きな貢献をしてくれてありがとう。
一部の善良な人たちは、英語、中国語、韓国語ですでにTTをサポートしていたTensorspeech/Tensorflowttsで素晴らしい仕事をしています。私はドイツ語へのサポートに貢献し、これらのモデルを訓練したかったのです。現在、適切なプロセッサでのトレーニングと推論の両方をサポートしています。詳細なブログ投稿はフォローアップしますが、今のところいくつかの簡単なメモ:
Tacotron 2最後にいくらかのノイズを生成し、それを断ち切る必要があります。繰り返しますが、推論の例はこれを行う方法を示しています。Multi-band MelGAN最適化せずにTF Liteにエクスポートしました。これは、デフォルトのものをエクスポートするとバックグラウンドノイズを生成したためです。 Tacotron 2でデフォルトの最適化を使用しました。saved_modelフォーマットは、Finetuningには適していません。アーキテクチャの実装では、Tensorflow 2.xでSubclassing APIを使用し、トレーニング中に教師の強制を求めるcallメソッドで複数の入力を取得します。これにより、 saved_modelにエクスポートする際にいくつかの問題が発生し、エクスポートする前にこのロジックを削除する必要がありました。モデルを微調整したい場合は、Tensorflowttsの私のフォークをご覧ください。 Apache 2.0ライセンスの条件の下で、これらの事前に処理されたモデルアーティファクトとコードの例を使用できます。一方、私のプロフィールに表示されているメールアドレスで、スピーチおよび/またはNLPプロジェクトで有料コンサルタントおよび/またはコラボレーションについて私に連絡することをお勧めします。