shanghainese tts
2023.06.06
テキストの前処理に特別な注意を払うことにより、既存のモデルと比較して、トーンサンディの生産を改善しようとするために、上から上から語り直す(TTS)システムをゼロから構築します。
writeup/main.pdfを参照してください。
pip install -r phonemisation/requirements.txt
pip install -r speech_synthesis/requirements.txt
pip install -r comparison_questionnaire/requirements.txt # for analysis of questionnaire results speech_synthesis/README.mdを参照してください。
phonemisation/ :Phonemisationモジュールが含まれていますphonemisation/__init__.pyの出力の説明を参照してくださいpython -m phonemisation "text to phonemise"jiebaは単語セグメンテーションに使用されますQieyunモジュールを使用して、トーン番号1 Yinping / Inbinトーンの音節に追加します。他のトーンは音韻的にマークされていませんromanisation.pyのromanisation_to_ipa関数には、音素関数が含まれていますmake_metadata.py : phonemisationモジュールを使用して、転写をIPAに変換し、トレーニング用のメタデータを生成しますdata/で以下を参照してください/data/ :トレーニングに使用されるデータセットが含まれていますshh.dict.cn/のみがトレーニングに使用されています*/metadata.txtファイルは、 make_metadata.pyによって生成されますtraining/coqui-ai/TTSリポジトリを使用します。writeup/ :書き込みspeech_synthesis/ :音声合成モデルが含まれていますspeech_synthesis/README.mdを参照してくださいcomparison_questionnaire/ :このモデル、Appleモデル、および人間のスピーカーによって作成された音声を比較するために使用されるアンケートとオーディオファイルが含まれています*-1.wav :このモデルによって作成されました*-2.wav :Apple VoiceOverがプロデュース(MacBook Pro 14-Inch、2021; Macos Ventura 13.0.1)*-3.wav :自分で話されていますstats.ipynb :アンケートの結果を分析するためのJupyterノートブック