Tensorvoxは、そのような技術へのアクセシビリティを向上させることを目的とした、デスクトップでユーザーフレンドリーで軽量のニューラル音声合成を可能にするように設計されたアプリケーションです。
主にTensorflowtts、およびCoqui-Ttsとvitsによって駆動され、Tensorflow C APIを使用してTensorflowモデル(最初の2つ)、PytorchのもののLibtorchを使用して、純粋なC ++/QTで記述されています。これにより、ギガバイト相当のPythonライブラリをインストールすることなく、ほんの数dllsをインストールすることなく、推論を実行できます。
Googleドキュメントの詳細なガイド
リリースからコピーをつかみ、.zipを抽出し、モデルとインストール手順についてはGoogleドライブフォルダーを確認します
独自のモデルの使用に興味がある場合は、最初にトレーニングしてからエクスポートする必要があります。
Tensorvoxは、3つのレポのモデルをサポートしています。
これらの2つの例は、必要なものを理解するのに十分なガイダンスを提供する必要があります。この目的のために特にモデルをトレーニングしたい場合は、Tensorflowttsをお勧めします。これは、言語のように完璧なものであるため、最良のサポートとvitsであるため、英語(コキとtftts、vits)、ドイツ語とスペイン語(Tensorflowttsのみ)に提供されるものが提供されるためです。つまり、何もする必要はありません。音素セットがIPA(ストレスまたはARPA、またはGlobalPhone(問題を開いて、説明して説明します)である限り、コードを変更せずに言語を追加できます。
現在、Windows 10 X64のみ(8.1で実行されているという報告を聞いたことがあります)がサポートされています。
要件:
プライミングビルド(すべての提供されたライブラリを使用):
depsフォルダーが.Proおよびメインソースファイルと同じ場所にあるように解凍します。光沢のある新しい実行可能ファイルを試すには、上記のようにプログラムのリリースをダウンロードし、そのリリースの実行可能ファイルを新しいものに置き換える必要があるため、すべてのDLLが配置されていることに注意してください。
TODO:ゼロからコンパイルの手順を追加します。
libtorch :https://pytorch.org/cppdocs/installing.html
Tensorflow C API :https://www.tensorflow.org/install/lang_c
CPPFLOW (TF C API-> C ++ラッパー):https://github.com/serizba/cppflow
audiofile (WAVエクスポート用):https://github.com/adamstark/audiofile
フレームレスダークスタイルのウィンドウ:https://github.com/jorgen-vikinggod/qt-frameless-window-darkstyle
json for modern c ++ :https://github.com/nlohmann/json
R8Brain-Free-Src (Resampling):https://github.com/avaneev/r8brain-free-src
rnnoise (cmakeバージョン、除去出力):https://github.com/almogh52/rnnoise-cmake
Logitech LED Illumination SDK (マウスRGB統合):https://www.logitechg.com/en-us/innovation/developer-lab.html
qcustomplot :https://www.qcustomplot.com/index.php/introduction
libnumbertext :https://github.com/numbertext/libnumbertext
ここで問題を開くか、Discordサーバーに参加して、そこで何かについて話し合う/尋ねることができます
メディア/ライセンス/その他の正式なもののお問い合わせについては、このメールに送信してください:[email protected]
このプログラム自体はMITライセンスですが、使用するモデルにはライセンス条件が適用されます。たとえば、ベトナムにいてTensorflowttsモデルを使用している場合は、詳細についてはここで確認する必要があります。