推薦する:
参加してください
Merlin Toolkitを使用した統計パラメーターの音声合成に基づいて、マンダリン/中国のテキストから音声まで
これは、発音統合のフロントエンドのデモにすぎません。テキストの正則化とリズム予測関数は提供されません。ピピニンを使用してテキストをピンインに変換し、st音を分詞に使用します。これら2つの精度は、商業レベルほど良くありません。
他の音声合成プロジェクトの場合、ポータルエンドツーエンドは良い方向であり、自然さはマーリンのそれよりも優れています。
これは、「テキストの正規化」や「韻律予測」などの一部の部分がないマンダリンフロントエンドのデモにすぎません。また、電話セットこのプロジェクトは、まだ完全にテストされていないhavを使用しています。
ラフなドキュメント:マンダリンに書かれたドラフトドキュメント
インターネットにはオープンソースのマンダリン音声合成データセットはありません。
アップデート
Biaobei Companyのおかげで、オープンソースのマンダリン音声合成データ、オープンソース中国の音声合成データ
【データダウンロードhttps://weixinxcxdb.oss-cn-beijing.aliyuncs.com/gwyinpinku/bznsyp.rar【データ説明
https://jackiexiao.github.io/mtts/を聴く
Python:Python3.6
システム:Linux(ubuntu16.04でテスト)
pip install jieba pypinyin
sudo apt-get install libatlas3-base
bash tools/install_mtts.shを実行します
または、自分でファイルをダウンロードします
デモを実行します
bash run_demo.sh
python src/mtts.py txtfile wav_directory_path output_directory_path (絶対パスまたは相対パス)を実行すると、MonthReal-Farced-Alignerによって訓練された独自の音響モデルがあり、 -a your_acoustic_model.zip 、zip.zipの使用を使用します。txtfileの例
A_01 这是一段文本
A_02 这是第二段文本
wav_directoryの例(サンプルレートは16kHzを超える必要があります)
A_01.wav
A_02.wav
python src/mandarin_frontend.py txtfile output_directory_pathを実行します from mandarin_frontend import txt2label
result = txt2label('向香港特别行政区同胞澳门和台湾同胞海外侨胞')
[print(line) for line in result]
# with prosody mark and alignment file (sfs file)
# result = txt2label('向#1香港#2特别#1行政区#1同胞#4澳门#2和#1台湾#1同胞#4海外#1侨胞',
sfsfile='example_file/example.sfs')
詳細についてはソースコードを参照してくださいが、Alignmentファイル(SFSファイル)に注意してください。フォーマットはendtime phone_type not start_time, phone_type (これはSpeech Oceanのデータとは異なります)です。
このプロジェクトでは、モントリオール強制アリグナーを使用して強制アライメントを行います。より良いアライメントを取得する場合は、データを使用してアライメントモデルをトレーニングします。
misc/thchs30.zipを参照してください。 THCHS30よりも大きなデータセットを使用すると、より良いアライメントが得られる場合があります。韻律マークなしでHTSラベルを生成できます。単語セグメントは韻律的な単語よりも小さいと仮定します(コードで調整されています)
「#0」、「#1」、「#2」、「#3」、「#4」は韻律ラベルの記号です。