تنزيل CS Tacotron Pytorch CS Tacotron Pytorch تنزيل رمز المصدر

CS Tacotron Pytorch

كود الذكاء الاصطناعي

1.0.0

تنزيل

CS-Tacotron

تنفيذ Pytorch لـ CS-Tacotron ، وهو نموذج TTS التوليدي لتبديل الكود من طرف إلى طرف يعتمد على Tacotron. للحصول على نسخة منتظمة من Tacotron ، يرجى الاطلاع على هذا الريبو.

مقدمة

مع النجاح الواسع في نماذج النصوص إلى التعلم الآلي الأخير (TTS) ، أثبتت نتائج واعدة حول توليف الكلام الواقعية قدرة الآلة على تصنيع الأصوات التي تشبه الإنسان. ومع ذلك ، لم يتم إحراز تقدم ضئيل في مجال تخليق النص إلى الكود الصيني والإنجليزي ، حيث يتعين على الماكينة أن تتعلم التعامل مع كل من الإدخال والمخرجات بطريقة متعددة اللغات. يحدث تبديل الكود عندما يتناوب المتحدث بين لغتين أو أكثر ، في الوقت الحاضر يتواصل الأشخاص في لغات تبديل التعليمات البرمجية في الحياة اليومية ، وبالتالي يجب تطوير تقنيات اللغة المنطوقة مثل TTS للتعامل مع المدخلات والمخرجات متعددة اللغات.

في هذا العمل ، نقدم Tacotron تبديل الكود ، الذي تم تصميمه على أساس أحدث طراز Tacotron النموذجي من طرف إلى طرف إلى النهاية (Wang et al. ، 2017). CS-TACOTRON قادر على تصنيع خطاب تبديل التعليمات البرمجية مشروطة على نص CS الخام. بالنظر إلى نص CS وأزواج الصوت ، يمكن تدريب نموذجنا من شامل إلى النهاية مع المعالجة المسبقة للبيانات المناسبة. Forceurmore ، نقوم بتدريب نموذجنا على مجموعة بيانات محاضرات محاضرة ، وهي مجموعة بيانات قائمة على محاضرات تبديل الكود الصينية ، والتي تنشأ من معالجة الإشارات الرقمية (DSP) المقدمة في جامعة تايوان الوطنية (NTU). نقدم العديد من تقنيات التنفيذ الرئيسية لجعل نموذج Tacotron أداءً جيدًا في مهمة توليد الكلام المتعددة اللغات الصعبة. تمتلك CS-Tacotron قدرة توليد خطاب CS من نص CS ، ويتحدث بوضوح مع نمط مكبر الصوت المحاضر.

انظر Report.pdf لمزيد من التفاصيل من هذا العمل.

طلبات السحب موضع ترحيب!

العرض التوضيحي

عينات صوتية من CS-Tacotron. كل العبارات أدناه غير مرئية أثناء التدريب.

إذا كنت تقرأ هذا على Github ، فيرجى زيارة صفحة GitHub الخاصة بنا للحصول على أشرطة الصوت لعرضها بشكل صحيح.
يمكن أيضًا العثور على ملفات الصوت ومقابلتها <طيبة / محاذاة> في النتيجة /.

يعمل CS-Tacotron بشكل جيد على المدخلات الصينية أحادية اللغة.

- "這是數位語音處理"
- "今天天氣很好"
- "歡迎來到台灣大學"
- "歡迎來到語音處理實驗室"
- "吃什麼好呢"

يعمل CS-Tacotron بشكل جيد على المدخلات الصينية والإنجليزية خارج المجال .

- "每天都要 سعيد"
- "المعالجة"
- "你可以多使用 Google"
- "العام الجديد 新氣象"
- "مشكلة"

يمكن لـ CS-Tacotron أيضًا ADPAT إلى بعض المدخلات الإنجليزية أحادية النطاق خارج المجال ،

على الرغم من حقيقة أن أيا من بيانات التدريب لا يحتوي على جملة اللغة الإنجليزية الكاملة.
- "تايوان رقم واحد"
- "لديك بعض المشكلة"

بداية سريعة

تثبيت التبعيات

تثبيت بيثون 3.
قم بتثبيت أحدث إصدار من Pytorch وفقًا للمنصة. لتحسين الأداء ، قم بالتثبيت باستخدام دعم GPU (CUDA) إذا كان قابلاً للتطبيق. يعمل هذا الرمز مع Pytorch 1.0 وبعد ذلك.
(اختياري) قم بتثبيت أحدث إصدار من TensorFlow وفقًا للمنصة. يمكن أن يكون هذا اختياريًا ، ولكن في الوقت الحالي مطلوب لمعالجة الكلام.
متطلبات التثبيت:
```
 pip3 install -r requirements.txt
```
تحذير: تحتاج إلى تثبيت Torch و TensorFlow / TensorFlow-GPU اعتمادًا على النظام الأساسي الخاص بك. هنا ندرج إصدار Pytorch و TensorFlow الذي نستخدمه عندما قمنا ببناء هذا المشروع.

باستخدام نموذج تم تدريبه مسبقًا

قم بتشغيل بيئة الاختبار مع الوضع التفاعلي :
```
 python3 test.py --interactive --plot --long_input --model 470000
```
قم بتشغيل خوارزمية الاختبار على مجموعة من النصوص (يمكن العثور على النتائج في الدليل/480000):
```
 python3 test.py --plot --model 480000 --test_file_path ../data/text/test_sample.txt
 * '--long_input' is optional to add
```

تمرين

ملاحظة: قمنا بتدريب نموذجنا على مجموعة البيانات الخاصة بنا: LecturedSp. حاليًا هذه مجموعة البيانات غير متوفرة للإصدار العام وتظل مجموعة خاصة في المختبر. راجع "Report.pdf" لمزيد من المعلومات حول مجموعة البيانات هذه.

قم بتنزيل مجموعة بيانات تبديل الكود التي تختارها.
قم بفك مجموعة البيانات في ~/data/text و ~/data/audio .
بعد التفريغ ، يجب أن تبدو شجرة البيانات الخاصة بك هكذا للمسارات الافتراضية للعمل:
```
 ./CS-Tacotron
 |- data
	 |- text
	 	|- train_sample.txt
	 	|- test_sample.txt
	 |- audio
	 	|- sample 
	 		|- audio_sample_*.wav
	 		|- ...
```

ملاحظة: بالنسبة للقسم التالي ، قم بتعيين المسارات وفقًا لأسماء الملفات الخاصة بمجموعة البيانات الخاصة بك ، وهذا مجرد عرض لبعض بيانات العينة. يجب أن يتطابق تنسيق مجموعة البيانات الخاصة بك مع بيانات العينة المقدمة لهذا الرمز للعمل.

المعالجة المسبقة البيانات النصية باستخدام src/preprocess.py:

 python3 preprocess.py --mode text --text_input_raw_path ../data/text/train_sample.txt --text_pinyin_path '../data/text/train_sample_pinyin.txt'

المعالجة المسبقة بيانات الصوت باستخدام src/preprocess.py:

 python3 preprocess.py --mode audio --audio_input_dir ../data/audio/sample/ --audio_output_dir ../data/audio/sample_processed/ --visualization_dir ../data/audio/sample_visualization/

تصور الاختلافات الصوتية قبل المعالجة:

قم بعمل ملفات ميتا جاهزة للنموذج من النص والصوت باستخدام src/preprocess.py:

 python3 preprocess.py --mode meta --text_pinyin_path ../data/text/train_sample_pinyin.txt --audio_output_dir ../data/audio/sample_processed/

تدريب نموذج باستخدام src/train.py
```
 python3 train.py
```
تم العثور على فرط النطق القابل للضبط في src/config.py. يمكنك ضبط هذه المعلمات والإعداد عن طريق تحرير الملف. ينصح بمقاييس الفصائل الافتراضية للمحاضرة وبيانات تبديل الكود الصيني والإنجليزي.
شاشة مع Tensorboardx (اختياري)
```
 tensorboard --logdir 'path to log dir'
```
يقوم المدرب بتفريغ الصوت والمحاذاة كل 2000 خطوة بشكل افتراضي. يمكنك العثور على هذه في CS-tacotron/ckpt .

شكر وتقدير

نود أن نمنح الفضل في عمل Ryuichi Yamamoto ، وهو تطبيق Pytorch الرائع لـ Tacotron ، والذي نعتمد عليه بشكل أساسي عملنا.

تنسيق

نعرض مؤامرة محاذاة مرحلة اختبار نموذجنا ، حيث يوضح الأول محاذاة المدخلات الصينية أحادية اللغة ، والثاني هو مدخلات تبديل الكود الصينية-الإنجليزية ، والثالث هو مدخلات اللغة الإنجليزية أحادية اللغة ، على التوالي.

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-08-25
الحجم 158.14MB
من Github

تطبيقات ذات صلة

pytorch image models

2024-11-03
cs dlp

2024-11-01
لعبة CS Contract Sniper النسخة المحمولة

2024-06-09
لعبة Counter Terrorist Strike CS النسخة الصينية النسخة المحمولة

2023-12-11
CS فريق العمل

2023-05-15
برنامج Illustrator CS القياسي التعليمي

2009-06-10

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ML stack

كود الذكاء الاصطناعي

1.0.0
awesome free chatgpt

كود الذكاء الاصطناعي

1.0.0
pywin_contextmenu

كود الذكاء الاصطناعي

Version update
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل