ForwardTacotron NVDAダウンロードForwardTacotron NVDAソースコードダウンロード

ダウンロード

NVDAスクリーンリーダーのForwardTacotronおよびHifi-Ganサポート

注：このアドオンとドキュメントはまだ建設中です。あなたの貢献は大歓迎です！

フォワードタコトロンは、持続時間予測子を使用してテキストを整列させ、MELスペクトログラムを生成するPytorchの音声合成モデルであることを忘れないでください。このモデルには、堅牢性、速度、ピッチ、エネルギー操作、効率などの利点があります。

したがって、このプラグインは、トーチとして使用されるライブラリはNVDAに直接含めることができないため、クライアント/サーバーを介してNVDAのオープンソーススクリーンリーダーのフォワードタコトロンのサポートを実装する試みです。

これは進行中の作業であるため、まだやるべきことがたくさんあります。

それまでの間、これまでに行われた進捗状況に耳を傾けることができます。

言語	声	サンプル
英語	ljspeech（griffinlim vocoderを使用）
英語	ljspeech（hifi-gan vocoderを使用）
スペイン語	ALDデータセット（Hifi-Gan Vocoderを使用）
スペイン語	Odal（Hifi-Gan Vocoder、Universal Model）

サーバーをアドオンにコンパイルして統合する方法。
- これが発生したら、シンセがロードされたときにサーバーを開くようにします。サーバーが読み込まれたら、Checkを呼び出してSpeech Synthesizerを使用できるようにすることができます。
- GPUで合成がリアルタイムで生成されるように見えるため、CPUサポートとGPUサポート付きの2つのバージョンをアドオン用に作成できます。それまでの間、CPUの減速に気付くかもしれません。
シンセリングオプションでの音声とエネルギーの変更サポート。
現時点では、アドオンはhttplib2を使用してサーバーと通信しますが、他の方法を探して、必要に応じてサーバーの一部を書き直すことができました。
「Voice_Models」フォルダー内で検出できるさまざまな声を読み込むためのサポートを追加します。
- これにより、トレーニングされたモデルをダウンロードするためのサポートを追加できます。私たちは英語のljspeechモデル、もう1人はドイツ語、2人はスペイン語です。
新しいマルチスピーカーモデルの場合、チェックする設定を読み取ることができます。もしそうなら、モデルのスピーカー名を最初に参照して、シンセリングオプションから音声を選択できます。

拡大する

追加情報