MeloTTS.cppダウンロードMeloTTS.cppソースコードのダウンロード

MeloTTS.cpp

AI ソースコード

1.0.0

ダウンロード

melotts.cpp

<英語| 简体中文| 繁體中文>

このリポジトリは、Myshell.AIがリリースした高品質の多言語テキスト（TTS）ライブラリであるMelottsのC ++実装を提供します。この実装は、CPU、GPU、およびNPUデバイスのシームレスな展開をサポートするOpenVinoと完全に統合されています。現在、このリポジトリは、英語と混合された中国語のみをサポートしています。英語モデルのサポートが次に来ます。

パイプラインデザイン

パイプライン設計は、3つのモデル（Bert、TTS、およびDeepFilternet）を含むOrignal Pytorchバージョンとほぼ一致しており、DeepFilternetが追加のコンポーネントとして追加されています。

Pipeline Design

伝説 /用語

トークナイザーとバート：トークネイザーとバートモデルは、中国語用のbert-base-multilingual-uncasedであり、英語のためにbert-base-uncased
G2P：Grapheme-to-Phoneme変換
携帯電話とトーン：中国語と音素のための4つのトーンと英語のストレスマークを持つピンインとして表される
TONE_SANDI：中国のシナリオの処理、トークン化と電話の修正に使用されるクラス
deepfilternet：除去に使用（int8 Quantizationによって導入されたバックグラウンドノイズ）

モデルデバイス互換性テーブル

以下の表は、各モデルのサポートされているデバイスの概要を示しています。

モデル名	CPUサポート	GPUサポート	NPUサポート
バート（前処理）	✅	✅	✅
TTS（推論）	✅	✅
deepfilternet（後処理）	✅	✅	✅

セットアップおよび実行ガイド

1。OpenVinoC++パッケージをダウンロードします

Windows用のOpenVino C ++パッケージをダウンロードするには、次のリンクを参照してください。WindowsのOpenVinoをインストールしてください。 WindowsのOpenVino 2024.5の場合、コマンドラインをコマンドプロンプト（CMD）で実行できます。

 curl -O https://storage.openvinotoolkit.org/repositories/openvino/packages/2024.5/windows/w_openvino_toolkit_windows_2024.5.0.17288.7975fa5da0c_x86_64.zip --ssl-no-revoke
tar -xvf w_openvino_toolkit_windows_2024.5.0.17288.7975fa5da0c_x86_64.zip

Linuxの場合、このリンクからC ++パッケージをダウンロードできます。LinuxのOpenVinoをインストールします。 LinuxのOpenVino 2024.5については、https：//storage.openvinotoolkit.org/repositories/openvino/packages/2024.5/linuxからダウンロードして、パッケージを解凍します。

OpenVinoの追加バージョンと詳細については、公式OpenVino Toolkitページ：OpenVino Toolkitの概要をご覧ください。

2。リポジトリをクローンします

 git lfs install
git clone https://github.com/apinge/MeloTTS.cpp.git

3。ビルドと実行

3.1 Windowsの構築と実行

 <OpenVINO_DIR>setupvars.bat
cd MeloTTS.cpp
cmake -S . -B build && cmake --build build --config Release
.buildReleasemeloTTS_ov.exe --model_dir ov_models --input_file inputs.txt  --output_file audio.wav

3.2 Linuxビルドと実行

 source <OpenVINO_DIR>/setupvars.sh
cd MeloTTS.cpp 
cmake -S . -B build && cmake --build build --config Release
./build/meloTTS_ov --model_dir ov_models --input_file inputs.txt --output_file audio.wav

3.3 DeepFilternetの有効化と無効化

DeepFilternet機能は現在、Windowsでのみサポートされており、INT8量子化モデルからのノイズをフィルタリングするために使用されます。デフォルトでは有効になっていますが、 -DUSE_DEEPFILTERNETオプションを使用して、cmake段階で有効または無効にすることができます。

たとえば、機能を無効にするには、CMake生成プロセス中に次の行を使用できます。

 cmake -S . -B build -DUSE_DEEPFILTERNET=OFF

詳細については、deepfilternet.cppを参照してください。

4。引数の説明

run_tts.batまたはrun_tts.shをサンプルスクリプトとして使用して、モデルを実行できます。以下は、これらのスクリプトで使用できるすべての引数の意味です。

--model_dir ：モデルファイル、辞書ファイル、およびサードパーティのリソースファイルを含むフォルダーを指定します。これは、リポジトリ内のov_modelsフォルダーです。現在の作業ディレクトリに基づいて相対パスを調整する必要がある場合があります。
--tts_device ：TTSモデルに使用するOpenVinoデバイスを指定します。サポートされているデバイスには、CPUとGPU（デフォルト：CPU）が含まれます。
--bert_device ：BERTモデルに使用するOpenVinoデバイスを指定します。サポートされているデバイスには、CPU、GPU、およびNPU（デフォルト：CPU）が含まれます。
--nf_device ：DeepFilternetモデルに使用するOpenVinoデバイスを指定します。サポートされているデバイスには、CPU、GPU、およびNPU（デフォルト：CPU）が含まれます。
--input_file ：処理する入力テキストファイルを指定します。テキストがUTF-8形式であることを確認してください。
--output_file ：生成する出力 *.wavオーディオファイルを指定します。
--speed ：出力オーディオの速度を指定します。デフォルトは1.0です。
--quantize ：INT8量子化モデルを使用するかどうかを示します。デフォルトはfalseです。つまり、FP16モデルはデフォルトで使用されます。
--disable_bert ：BERTモデルの推論を無効にするかどうかを示します。デフォルトはfalseです。
--disable_nf ：deepfilternetモデルの推論を無効にするかどうかを示します（デフォルト：false）。
--language ：TTSの言語を指定します。デフォルト言語は中国語（ ZH ）です。

NPUデバイスサポート

パイプラインのBertおよびDeepFilternetモデルは、Meteor LakeとLunar Lakeの統合されたNPUを利用して、推論デバイスとしてNPUをサポートしています。

以下は、この機能と使用の詳細を有効にする方法です。

コンテンツを展開/崩壊させるには、ここをクリックしてください

構築方法

-DUSE_BERT_NPU=ON

 cmake -DUSE_BERT_NPU=ON -B build -S .

議論を設定する方法

--bert_device NPU

--nf_device NPU

 buildReleasemeloTTS_ov.exe --bert_device NPU --nf_device NPU --model_dir ov_models --input_file inputs.txt  --output_file audio.wav

サポートされているバージョン

オペレーティングシステム：Windows、Linux
CPUアーキテクチャ：Metor Lake、Lunar Lake、およびほとんどのIntel CPU
GPUアーキテクチャ：Intel®ARC™グラフィックス（INTEL XE、IGPUを含む）
NPUアーキテクチャ：NPU 4、Meteor LakeまたはLunar LakeのNPU
OpenVinoバージョン：> = 2024.4
C ++バージョン：> = C ++ 20

Windowsを備えたAI PCノートブックを使用している場合、通常、GPUおよびNPUドライバーが事前にインストールされます。ただし、最新のドライバーに更新することを好むLinuxユーザーまたはWindowsユーザーは、以下のガイドラインに従う必要があります。

GPUの場合：GPUを使用する場合は、GPUドライバーをインストールするために、OpenVino™を使用してIntel®プロセッサグラフィックス（GPU）の構成を参照してください。
NPUの場合：NPUを使用する場合は、NPUデバイスを参照して、NPUドライバーが正しくインストールされていることを確認してください。

すべてのドライバーがWindowsとLinuxの間で異なることに注意してください。そのため、特定のオペレーティングシステムの指示に従ってください。

将来の開発計画

将来のリリースのために計画されているいくつかの機能と改善を次に示します。

英語TTSサポートを追加：
- 英語のテキスト（TTS）機能を有効にしますが、英語入力のトークン化はまだ実装されていません。
量子化されたTTSモデルの品質の向上：
- 現在のINT8量子化されたモデルは、わずかなバックグラウンドノイズを示します。回避策として、後処理のためにDeepFilternetを統合しました。今後、量子化技術によって騒音問題にもっと効果的に対処することを目指しています。