يوصي:
مرحبًا بك للانضمام
النص الماندرين/الصيني إلى الكلام بناءً على تخليق الكلام الإحصائي باستخدام مجموعة أدوات Merlin
هذا مجرد عرض تجريبي على الواجهة الأمامية لتوليف النطق. لا يوفر تنظيم النص وتنبؤ الإيقاع. استخدم Pypinyin لتحويل النص إلى Pinyin ، واستخدم التأتأة للناشئة. دقة هذين الاثنين ليست جيدة مثل المستوى التجاري.
بالنسبة لمشاريع التوليف الصوتية الأخرى ، فإن البوابة من طرف إلى النهاية هي اتجاه جيد ، والطبيعة الطبيعية أفضل من ميرلين.
هذا ليس سوى عرض تجريبي للواجهة الأمامية الماندرين وهو عدم وجود بعض الأجزاء مثل "تطبيع النص" و "التنبؤ بالمحترفين" ، ومجموعة الهاتف && تسأل هذا المشروع لا يتم اختباره بالكامل بعد.
وثائق خشنة: مسودة وثائق مكتوبة في الماندرين
لا توجد مجموعة بيانات توليف خطاب الماندرين مفتوحة المصدر على الإنترنت ، وقد استخدمت هذه مجموعة بيانات THCHS30 لتوليف الكلام
تحديث
بيانات توليف الكلام مفتوحة المصدر من شركة مصادر البيانات ، بيانات توليف الكلام الصينية المفتوحة المصدر ، بفضل شركة Biaobei
【تنزيل البيانات】 https://weixinxcxdb.oss-cn-beijing.aliyuncs.com/gwyinpinku/bznsyp.rar 【الوصف data
استمع إلى https://jackiexiao.github.io/mtts/
بيثون: Python3.6
النظام: Linux (تم اختباره على Ubuntu16.04)
pip install jieba pypinyin
sudo apt-get install libatlas3-base
قم بتشغيل bash tools/install_mtts.sh
أو تنزيل الملف بنفسك
تشغيل العرض التوضيحي
bash run_demo.sh
python src/mtts.py txtfile wav_directory_path output_directory_path (المسار المطلق أو المسار النسبي) ستحصل على تسمية HTS ، إذا كان لديك نموذج صوتي خاص بك ، -a your_acoustic_model.zip هذا المشاريمثال txtfile
A_01 这是一段文本
A_02 这是第二段文本
مثال wav_directory (يجب أن يزيد معدل عينة من 16 كيلو هرتز)
A_01.wav
A_02.wav
python src/mandarin_frontend.py txtfile output_directory_path from mandarin_frontend import txt2label
result = txt2label('向香港特别行政区同胞澳门和台湾同胞海外侨胞')
[print(line) for line in result]
# with prosody mark and alignment file (sfs file)
# result = txt2label('向#1香港#2特别#1行政区#1同胞#4澳门#2和#1台湾#1同胞#4海外#1侨胞',
sfsfile='example_file/example.sfs')
راجع رمز المصدر لمزيد من المعلومات ، ولكن انتبه إلى ملف المحاذاة (ملف SFS) ، فإن التنسيق هو endtime phone_type not start_time, phone_type (وهو يختلف عن بيانات أوشن الكلام)
يستخدم هذا المشروع محاذاة مونتريال للسيارة لإجراء المحاذاة القسرية ، إذا كنت ترغب في الحصول على محاذاة أفضل ، استخدم بياناتك لتدريب نموذج المحاذاة ، انظر MFA: Algin-on-the-dataset
misc/thchs30.zip ، القاموس الذي نستخدمه MANDARIN_MTTS.LEXICON. إذا كنت تستخدم مجموعة بيانات أكبر من THCHS30 ، فقد تحصل على محاذاة أفضل.يمكنك إنشاء تسمية HTS بدون علامة Prosody. نحن نفترض أن جزء الكلمات أصغر من الكلمة الإيجابية (التي يتم تعديلها في الكود)
"#0" ، "#1" ، "#2" ، "#3" و "#4" هي رموز وضع العلامات على Prosody.