ForwardTacotron NVDA
1.0.0
注:このアドオンとドキュメントはまだ建設中です。あなたの貢献は大歓迎です!
フォワードタコトロンは、持続時間予測子を使用してテキストを整列させ、MELスペクトログラムを生成するPytorchの音声合成モデルであることを忘れないでください。このモデルには、堅牢性、速度、ピッチ、エネルギー操作、効率などの利点があります。
したがって、このプラグインは、トーチとして使用されるライブラリはNVDAに直接含めることができないため、クライアント/サーバーを介してNVDAのオープンソーススクリーンリーダーのフォワードタコトロンのサポートを実装する試みです。
これは進行中の作業であるため、まだやるべきことがたくさんあります。
それまでの間、これまでに行われた進捗状況に耳を傾けることができます。
| 言語 | 声 | サンプル |
|---|---|---|
| 英語 | ljspeech(griffinlim vocoderを使用) | |
| 英語 | ljspeech(hifi-gan vocoderを使用) | |
| スペイン語 | ALDデータセット(Hifi-Gan Vocoderを使用) | |
| スペイン語 | Odal(Hifi-Gan Vocoder、Universal Model) |