تنزيل PaddleSpeech - تنزيل رمز مصدر PaddleSpeech

PaddleSpeech

كود الذكاء الاصطناعي

PaddleSpeech r1.4.2

تنزيل

(صينية مبسطة | الإنجليزية)

بداية سريعة | الوثائق | قائمة النماذج | دورات Aistudio | NAACL2022 أفضل ورقة جائزة تجريبية | جيتي

Paddlespeech هي مجموعة أدوات مفتوحة المصدر على منصة PaddlePaddle لمجموعة متنوعة من المهام الحرجة في الكلام والصوت ، مع النماذج الفنية والمتأثرة.

فازت Paddlespeech بجائزة NAACL2022 Best Demo ، يرجى مراجعة ورقتنا على Arxiv.

التعرف على الكلام

إدخال الصوت	نتائج التعرف
	طرقت الباب على الجانب القديم من المبنى.
	أعتقد أن أهم شيء في الجري هو أن يجلب لي صحة جيدة.

ترجمة الكلام (الإنجليزية إلى الصينية)

إدخال الصوت	نتائج الترجمات
	طرقت الباب القديم لهذا المبنى.

نص إلى كلام

نص الإدخال	الصوت الاصطناعي
كانت الحياة مثل علبة من الشوكولاتة ، فأنت لا تعرف أبدًا ما ستحصل عليه.
صباح الخير ، اليوم هو 2020/10/29 ، مع الحد الأدنى لدرجة حرارة -3 درجة مئوية.
جي جي جي ، جمع الدجاج ، والدجاج دجاجات شائكة. الدجاج الشوكي جائع ، جي جي وجي جي يساعد الدجاج. عندما يتم خلط الدجاج ، ينضم إليها جي جي. جي جي سريعًا جدًا في ضرب الدجاج ، والدجاج عاجل ، والمارقة عاجلة ، جي جي قلق ، ثم يضرب الدجاج. جي جي سريع لضرب الدجاج. عندما يكون الدجاج ميتًا ، فإن Ji Ji متحمس ، ويكتب "Ji Ji's يطرق الدجاج".
مرحبًا بالجميع ، أنا مدرس الببغاء الظاهري. دعنا نقرأ قصيدة. أنا ونسيم الربيع يمرون. تأخذ ماء الخريف لأخذ المجرة.
Ikea ليس ضروريًا لكي تتحدث عنه ، لكن ما تقوله سيصبح عرضًا تقديميًا واعترافًا.
كل بلد له نشيد وطني خاص به

لمزيد من السمعات المصنفة ، يرجى الرجوع إلى عينات نص إلى محطات النقل إلى الكلام.

ترقيم الترقيم

نص الإدخال	نص الإخراج
الطقس جيد حقا اليوم. هل لديك وقت في فترة ما بعد الظهر؟ أريد أن أطلب منك تناول العشاء معًا	الطقس اليوم جيد حقًا! هل أنت حر في فترة ما بعد الظهر؟ أريد أن أطلب منك تناول وجبة معًا.

سمات

من خلال التنفيذ السهل الاستخدام والفعال والمرن والقابل للتطوير ، تتمثل رؤيتنا في تمكين كل من التطبيقات الصناعية والبحث الأكاديمي ، بما في ذلك التدريب ، وحدات الاستدلال والاختبار ، وعملية النشر. لكي تكون أكثر تحديدًا ، ميزات مجموعة الأدوات هذه على:

؟ سهولة الاستخدام : تتوفر عوائق منخفضة للتثبيت و CLI والخادم ودفق الخادم لبدء رحلتك السريعة.
؟ تتماشى مع أحدث ما يلي : نحن نوفر نماذج عالية السرعة وخفيفة الوزن ، وكذلك التكنولوجيا المتطورة.
؟ تدفق نظام ASR و TTS : نحن نقدم الإنتاج جاهزًا للبث ASR ونظام TTS البث.
؟ الواجهة الصينية المستندة إلى القواعد : تحتوي الواجهة الأمامية لدينا على تطبيع النص و Grapheme-to-Phoneme (G2P ، بما في ذلك Polyphone و Tone Sandhi). علاوة على ذلك ، نستخدم القواعد اللغوية المحددة ذاتيا لتكييف السياق الصيني.
؟ أصناف من الوظائف التي تثير حيوية كل من الصناعية والأوساط الأكاديمية :
- ️ تنفيذ مهام الصوت الحرجة : تحتوي مجموعة الأدوات هذه على وظائف صوتية مثل التعرف التلقائي على الكلام ، وتوليف النص إلى كلام ، وتكبير السماعات ، واكتشاف الكلمات الرئيسية ، وتصنيف الصوت ، وترجمة الكلام ، إلخ.
- ؟ تكامل النماذج الرئيسية ومجموعات البيانات : تقوم مجموعة الأدوات بتنفيذ الوحدات التي تشارك في خط الأنابيب بأكمله لمهام الكلام ، ويستخدم مجموعات البيانات السائدة مثل Librispeech و LJSpeech و Aishell و CSMSC ، إلخ. انظر أيضًا قائمة النماذج لمزيد من التفاصيل.
- ؟ تطبيق النماذج المتتالية : كامتداد للمهام الصوتية التقليدية النموذجية ، فإننا نجمع بين مهام سير العمل في المهام المنعزلة مع مجالات أخرى مثل معالجة اللغة الطبيعية (NLP) ورؤية الكمبيوتر (CV).

التحديث الأخير

؟ 2023.05.31: أضف wavlm asr-en ، wavlm صقلًا دقيقًا لـ ASR على Librispeech.
؟ 2023.05.18: أضف SequezeFormer ، تدريب Squizeformer لـ ASR على Aishell.
؟ 2023.05.04: أضف Hubert Asr-En ، Hubert Fine Tuning لـ ASR على Librispeech.
⚡ 2023.04.28: إصلاح موتر 0-D ، مع ترقية PaddlePaddle == 2.5 ، تم حل مشكلة تعديل الموتر 0-D.
؟ 2023.04.25: أضف AMP لـ U2 concormer.
2023.04.06: إضافة ملف الترجمة (.SRT تنسيق) توليد مثال.
2023.03.14: إضافة أمثلة SVS (تخليق صوت الغناء) مع مجموعة بيانات OpenCPOP ، بما في ذلك Diffsinger و PWGAN و Hifigan ، يتم تحسين التأثير بشكل مستمر.
؟ 2023.03.09: إضافة WAV2VEC2ASR-EN.
؟ 2023.03.07: أضف TTS ARM Linux C ++ Demo (مع الواجهة الأمامية النصية الصينية C ++).
2023.03.03 أضف التحويل الصوتي Starganv2-VC تصنيع خط الأنابيب.
؟ 2023.02.16: أضف TTS الكانتونية.
2023.01.10: أضف تحدد الكود ASR CLI و Demos.
؟ 2023.01.06: أضف وصفة ASR TAL_CS من الكود.
؟ 2022.12.02: أضف خط أنابيب تنبؤات التناوب من طرف إلى طرف (بما في ذلك استخدام ملصقات Prosody في النموذج الصوتي).
؟ 2022.11.30: إضافة TTS Android Demo.
؟ 2022.11.28: تتوفر عروض PP-TTS و PP-ASR في Aistudio والموقع الرسمي لـ PaddlePaddle.
؟ 2022.11.18: أضف Whisper CLI والعروض التوضيحية ، ودعم التعرف متعدد اللغة وترجمة.
2022.11.18: إضافة WAV2VEC2 CLI و DEMOS ، ودعم ASR واستخراج الميزات.
؟ 2022.11.17: أضف صوت الذكور ل TTS.
2022.11.07: أضف نشر U2/U2 ++ C ++ نشر ASR عالي الأداء.
؟ 2022.11.01: أضف فقدان العدواني لـ TTS الصينية المختلطة.
2022.10.26: أضف التنبؤ Prosody لـ TTS.
؟ 2022.10.21: أضف SSML لـ TTS Text Text Frontend.
؟ 2022.10.11: أضف WAV2VEC2ASR-EN ، WAV2VEC2.0 TUNING FIND FOR ASR على Librispeech.
2022.09.26: أضف استنساخ الصوت ، TTS Finetune ، و Ernie-Sat في تجريبي ويب Paddlespeech.
⚡ 2022.09.09: إضافة مثال استنساخ Aishell-3 مع ECAPA-TDNN Encoder.
⚡ 2022.08.25: إطلاق TTS Finetune مثال.
2022.08.22: إضافة نماذج Ernie-Sat: Ernie-Sat-Vctk ، Ernie-Sat-Aishell3 ، Ernie-Sat-zh_en.
2022.08.15: أضف G2PW إلى الواجهة النصية النصية الصينية TTS.
2022.08.09: إطلاق TTS الصينية الإنجليزية المختلطة.
⚡ 2022.08.03: أضف onnxruntime استنتاج لـ TTS CLI.
؟ 2022.07.18: الإصدار Vits: Vits-CSMSC ، Vits-Aishell3 ، Vits-Vc.
؟ 2022.06.22: تدعم جميع نماذج TTS تنسيق ONNX.
؟ 2022.06.17: إضافة تجريبي ويب.
؟ 2022.05.13: الإصدار PP-ASR ، PP-TTS ، PP-VPR.
؟ 2022.05.06: يتوفر PaddleSpeech Streaming Server Streaming ASR مع Punctuation Restoration وجهاز Token Timestamp Text-to-Speech .
؟ 2022.05.06: يتوفر PaddleSpeech Server Audio Classification ، Automatic Speech Recognition ، والتحقق Text-to-Speech ، Speaker Verification Punctuation Restoration .
؟ 2022.03.28: يتوفر PaddleSpeech CLI Speaker Verification .
؟ 2021.12.10: يتوفر PaddleSpeech CLI Audio Classification ، Automatic Speech Recognition ، Speech Translation (English to Chinese) Text-to-Speech .

مجتمع

مسح رمز الاستجابة السريعة أدناه مع WeChat الخاص بك ، يمكنك الوصول إلى مجموعة Exchange التقنية الرسمية والحصول على المكافأة (أكثر من 20 جيجابايت من مواد التعلم ، مثل الأوراق والرموز ومقاطع الفيديو) والرابط المباشر للدروس. نتطلع إلى مشاركتك.

تثبيت

نوصي المستخدمين بشدة بتثبيت مجاذيف في Linux مع Python> = 3.8 و Paddlepaddle <= 2.5.1 . بعض الإصدارات الجديدة من Paddle ليس لها دعم للتكيف في المجاذيف ، لذلك يمكن دعم الإصدارات 2.5.1 حاليًا فقط.

مقدمة التبعية

GCC> = 4.8.5
paddlepaddle <= 2.5.1
بيثون> = 3.8
دعم نظام التشغيل: Linux (يوصي) ، Windows ، Mac OSX

يعتمد المجاذيف على Paddlepaddle. للتثبيت ، يرجى الرجوع إلى موقع الويب الرسمي لـ PaddlePaddle واختياره وفقًا لجهازك الخاص. فيما يلي مثال على إصدار وحدة المعالجة المركزية.

pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple

يمكنك أيضًا تحديد إصدار PaddlePaddle أو تثبيت الإصدار.

 # install 2.4.1 version. Note, 2.4.1 is just an example, please follow the minimum dependency of paddlepaddle for your selection
pip install paddlepaddle==2.4.1 -i https://mirror.baidu.com/pypi/simple
# install develop version
pip install paddlepaddle==0.0.0 -f https://www.paddlepaddle.org.cn/whl/linux/cpu-mkl/develop.html

هناك طريقتان سريعتان للتثبيت للتجديف ، والآخر هو تثبيت PIP ، والآخر هو تجميع رمز المصدر (موصى به).

تثبيت PIP

pip install pytest-runner
pip install paddlespeech

مجموعة رمز المصدر

git clone https://github.com/PaddlePaddle/PaddleSpeech.git
cd PaddleSpeech
pip install pytest-runner
pip install .

لمزيد من مشكلات التثبيت ، مثل بيئة كوندا ، ومشاكل تعتمد على المكتب ، ومشاكل GCC ، وتثبيت Kaldi ، وما إلى ذلك ، يمكنك الرجوع إلى مستند التثبيت هذا. إذا واجهت مشاكل أثناء التثبيت ، يمكنك ترك رسالة على #2150 والعثور على المشكلات ذات الصلة

بداية سريعة

يمكن للمطورين تجربة نماذجنا باستخدام سطر أوامر paddlespeech أو Python. تغيير --input لاختبار الصوت/النص الخاص بك ودعم الصوت 16K WAV تنسيق.

يمكنك أيضًا تجربة ذلك بسرعة في استوديو الذكاء الاصطناعي؟ Paddlespeech API Demo

اختبار تنزيل نموذج الصوت

wget -c https://paddlespeech.bj.bcebos.com/PaddleAudio/zh.wav
wget -c https://paddlespeech.bj.bcebos.com/PaddleAudio/en.wav

التعرف على الكلام التلقائي

（انقر لتوسيع） التعرف على الكلام مفتوح المصدر

تجربة سطر الأوامر

paddlespeech asr --lang zh --input zh.wav

Python API تجربة

 > >> from paddlespeech . cli . asr . infer import ASRExecutor
> >> asr = ASRExecutor ()
> >> result = asr ( audio_file = "zh.wav" )
> >> print ( result )
我认为跑步最重要的就是给我带来了身体健康

نص إلى كلام

تخليق الكلام مفتوح المصدر

الإخراج 24K معدل العينة WAV تنسيق الصوت

تجربة سطر الأوامر

paddlespeech tts --input "你好，欢迎使用百度飞桨深度学习框架！ " --output output.wav

Python API تجربة

 > >> from paddlespeech . cli . tts . infer import TTSExecutor
> >> tts = TTSExecutor ()
> >> tts ( text = "今天天气十分不错。" , output = "output.wav" )

يمكنك تجربة في مساحات Huggingface TTS Demo

تصنيف الصوت

أداة تصنيف الصوت في المجال المفتوح

نموذج تصنيف الصوت يعتمد على 527 فئة من مجموعة بيانات AudioSet

تجربة سطر الأوامر

paddlespeech cls --input zh.wav

Python API تجربة

 > >> from paddlespeech . cli . cls . infer import CLSExecutor
> >> cls = CLSExecutor ()
> >> result = cls ( audio_file = "zh.wav" )
> >> print ( result )
Speech 0.9027186632156372

استخراج الصوتية

أداة استخراج الصوتية الصناعية من الدرجة الصناعية

تجربة سطر الأوامر

paddlespeech vector --task spk --input zh.wav

Python API تجربة

 > >> from paddlespeech . cli . vector import VectorExecutor
> >> vec = VectorExecutor ()
> >> result = vec ( audio_file = "zh.wav" )
> >> print ( result ) # 187维向量
[ - 0.19083306   9.474295   - 14.122263    - 2.0916545    0.04848729
   4.9295826    1.4780062    0.3733844   10.695862     3.2697146
  - 4.48199     - 0.6617882   - 9.170393   - 11.1568775   - 1.2358263 ...]

ترقيم الترقيم

الاسترداد السريع لعلامات الترقيم النصية ، يعمل مع نماذج ASR

تجربة سطر الأوامر

paddlespeech text --task punc --input 今天的天气真不错啊你下午有空吗我想约你一起去吃饭

Python API تجربة

 > >> from paddlespeech . cli . text . infer import TextExecutor
> >> text_punc = TextExecutor ()
> >> result = text_punc ( text = "今天的天气真不错啊你下午有空吗我想约你一起去吃饭" )
今天的天气真不错啊！你下午有空吗？我想约你一起去吃饭。

ترجمة الكلام

أداة ترجمة اللغة الإنجليزية من طرف إلى طرف

استخدم أدوات Kaldi ذات الصلة مسبقًا ، فقط تجربة الدعم في نظام Ubuntu

تجربة سطر الأوامر

paddlespeech st --input en.wav

Python API تجربة

 > >> from paddlespeech . cli . st . infer import STExecutor
> >> st = STExecutor ()
> >> result = st ( audio_file = "en.wav" )
[ '我 在 这栋 建筑 的 古老 门上 敲门 。' ]

خادم بدء سريع

يمكن للمطورين تجربة خادم الكلام الخاص بنا باستخدام سطر أوامر Paddlespeech Server.

يمكنك تجربته بسرعة في AI Studio (يوصي): خطاب ercerver

ابدأ الخادم

paddlespeech_server start --config_file ./demos/speech_server/conf/application.yaml

خدمات التعرف على الكلام

paddlespeech_client asr --server_ip 127.0.0.1 --port 8090 --input input_16k.wav

وصول النص إلى خدمات الكلام

paddlespeech_client tts --server_ip 127.0.0.1 --port 8090 --input "您好，欢迎使用百度飞桨语音合成服务。 " --output output.wav

الوصول إلى خدمات تصنيف الصوت

paddlespeech_client cls --server_ip 127.0.0.1 --port 8090 --input input.wav

لمزيد من المعلومات حول أسطر أوامر الخادم ، يرجى الاطلاع على: عروض خادم الكلام

بدء تشغيل سريع لخادم البث

يمكن للمطورين محاولة دفق ASR وخادم TTS البث.

ابدأ في دفق خادم التعرف على الكلام

 paddlespeech_server start --config_file ./demos/streaming_asr_server/conf/application.yaml

الوصول إلى دفق خدمات التعرف على الكلام

 paddlespeech_client asr_online --server_ip 127.0.0.1 --port 8090 --input input_16k.wav

ابدأ في دفق النص إلى خادم الكلام

 paddlespeech_server start --config_file ./demos/streaming_tts_server/conf/tts_online_application.yaml

الوصول إلى نص دفق إلى خدمات الكلام

 paddlespeech_client tts_online --server_ip 127.0.0.1 --port 8092 --protocol http --input "您好，欢迎使用百度飞桨语音合成服务。" --output output.wav

لمزيد من المعلومات ، يرجى الاطلاع على: دفق ASR وتدفق TTS

قائمة النموذج

يدعم Paddlespeech سلسلة من النماذج الأكثر شعبية. يتم تلخيصها في النماذج التي تم إصدارها وتوصيلها مع النماذج المسبقة المتاحة.

يحتوي الكلام إلى النص على نموذج صوتي ونموذج لغة وترجمة الكلام ، مع التفاصيل التالية:

نوع وحدة الكلام إلى النص	مجموعة البيانات	نوع النموذج	مثال
إعادة إدراج الكلام	آيل	نماذج قائمة على DeepSpeech2 RNN +	Deepppeesh2-Aishell
	آيل	نماذج الانتباه القائمة على المحولات	u2.transformer.conformer-aishell
	Librispeech	نماذج الانتباه القائمة على المحولات	deepppeesh2-librispirech/transformer.conformer.u2-librispirech/transformer.conformer.u2-kaldi-librispirech
	توقيت	تدفق موحد وغير مدعو	U2-TICIT
تنسيق	THCHS30	MFA	MFA-thchs30
نموذج اللغة	نموذج لغة ngram		كينلم
ترجمة الكلام (الإنجليزية إلى الصينية)	تيد en-zh	المحول + ASR MTL	محول
ترجمة الكلام (الإنجليزية إلى الصينية)	تيد en-zh	FAT + Transformer + ASR MTL	فات سانت

يحتوي النص على الكلام في المجاذيف بشكل أساسي على ثلاث وحدات: الواجهة الأمامية النصية ، النموذج الصوتي والمتفرج . يتم إدراج نماذج النموذج الصوتي والمتفرج على النحو التالي:

نوع وحدة النص إلى الكلام	نوع النموذج	مجموعة البيانات	مثال
نص نص			TN/G2P
نموذج صوتي	Tacotron2	LJSPEEDE/CSMSC	Tacotron2-ljspeech/tacotron2-csmsc
	Transformer TTS	ljspeech	محول ljspeech
	speedyspeech	CSMSC	speedySpeech-CSMSC
	Fastspeech2	LJSPEEDE / VCTK / CSMSC / AISHELL-3 / ZH_EN / FineUne	fastspech2-ljspeech/fastspeech2-vctk/fastspeade2-csmsc/fastspeade2-aishell3/fastspeade2-zh_en/fastspeesh2-finenetune
	إرني سات	VCTK / AISHELL-3 / ZH_EN	Ernie-Sat-VCTK / Ernie-Sat-Aishell3 / Ernie-Sat-zh_en
	Diffsinger	opencpop	Diffsinger-opencpop
Vocoder	تدفق الموجة	ljspeech	موجة التدفق ljspeech
	موازي Wavegan	LJSPEEDE / VCTK / CSMSC / AISHELL-3 / OPENCPOP	PWGAN-LJSPEEDE / PWGAN-VCTK / PWGAN-CSMSC / PWGAN-AISHELL3 / PWGAN-OPENCPOP
	متعددة الفرقة ميليغان	CSMSC	متعدد النطاق Melgan-CSMSC
	نمط ميليجان	CSMSC	نمط melgan-CSMSC
	هيفيجان	LJSPEEDE / VCTK / CSMSC / AISHELL-3 / OPENCPOP	Hifigan-ljspeech / Hifigan-VCTK / Hifigan-CSMSC / Hifigan-Aishell3 / Hifigan-Opencpop
	ويفرن	CSMSC	Wavernn-CSMSC
استنساخ الصوت	GE2E	Librispeech ، إلخ.	GE2E
	SV2TTS (Ge2e + Tacotron2)	Aishell-3	VC0
	SV2TTS (GE2E + Fastspeade2)	Aishell-3	VC1
	SV2TTS (ECAPA-TDNN + FASTSPEESH2)	Aishell-3	VC2
	Ge2e + Vits	Aishell-3	Vits-Vc
من طرف إلى طرف	حالات	CSMSC / Aishell-3	Vits-CSMSC/Vits-Aishell3

تصنيف الصوت

مهمة	مجموعة البيانات	نوع النموذج	مثال
تصنيف الصوت	ESC-50	بان	pann-esc50

اكتشاف الكلمات الرئيسية

مهمة	مجموعة البيانات	نوع النموذج	مثال
اكتشاف الكلمات الرئيسية	مهلا snips	MDTC	MDTC-Hey-Snips

التحقق من المتحدث

مهمة	مجموعة البيانات	نوع النموذج	مثال
التحقق من المتحدث	voxceleb1/2	ecapa-tdnn	ecapa-tdnn-voxceleb12

مذكرات المتحدث

مهمة	مجموعة البيانات	نوع النموذج	مثال
مذكرات المتحدث	أمي	ECAPA-TDNN + AHC / SC	ecapa-tdnn-ami

ترقيم الترقيم

مهمة	مجموعة البيانات	نوع النموذج	مثال
ترقيم الترقيم	iwlst2012_zh	إرني الخطي	IWSLT2012-PUNCH0

وثائق

عادة ، تمنحك الكلام Sota و Audio Sota و Music Sota نظرة عامة على الموضوعات الأكاديمية الساخنة في المنطقة ذات الصلة. للتركيز على المهام في المجاذيف ، ستجد أن الإرشادات التالية مفيدة لبدء الأفكار الأساسية.

تثبيت
بداية سريعة
بعض العروض التوضيحية
دروس
- التعرف على الكلام التلقائي
  - مقدمة
  - إعداد البيانات
  - ngram lm
- نص إلى كلام
  - مقدمة
  - استخدام متقدم
  - الواجهة النصية المستندة إلى الحكم الصيني
  - اختبار عينات الصوت
- التحقق من المتحدث
  - البحث الصوتي
  - التحقق من المتحدث
- تصنيف الصوت
- ترجمة الكلام
- خادم الكلام
نماذج صدر
- الكلام إلى النص
- نص إلى كلام
- تصنيف الصوت
- التحقق من المتحدث
- مذكرات المتحدث
- ترقيم الترقيم
مجتمع
مرحبًا بك في المساهمة
رخصة

تسمى وحدة النص إلى الكلام في الأصل الببركة ، ويتم دمجها الآن مع هذا المستودع. إذا كنت مهتمًا بالبحث الأكاديمي حول هذه المهمة ، فيرجى الاطلاع على نظرة عامة على TTS Research. أيضا ، هذا المستند هو دليل جيد لمكونات خط الأنابيب.

أمثلة

PADDLEBOBO: استخدم TTS Paddlespeech لتوليد صوت بشري افتراضي.

الفيديو التجريبي paddlespeech
VtuberTalk: استخدم Paddlespeech TTS و ASR لاستنساخ الصوت من مقاطع الفيديو.

اقتباس

للاستشهاد بالمجاذيف للبحث ، يرجى استخدام التنسيق التالي.

 @inproceedings{zhang2022paddlespeech,
    title = {PaddleSpeech: An Easy-to-Use All-in-One Speech Toolkit},
    author = {Hui Zhang, Tian Yuan, Junkun Chen, Xintong Li, Renjie Zheng, Yuxin Huang, Xiaojie Chen, Enlei Gong, Zeyu Chen, Xiaoguang Hu, dianhai yu, Yanjun Ma, Liang Huang},
    booktitle = {Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies: Demonstrations},
    year = {2022},
    publisher = {Association for Computational Linguistics},
}

@InProceedings{pmlr-v162-bai22d,
  title = {{A}$^3${T}: Alignment-Aware Acoustic and Text Pretraining for Speech Synthesis and Editing},
  author = {Bai, He and Zheng, Renjie and Chen, Junkun and Ma, Mingbo and Li, Xintong and Huang, Liang},
  booktitle = {Proceedings of the 39th International Conference on Machine Learning},
  pages = {1399--1411},
  year = {2022},
  volume = {162},
  series = {Proceedings of Machine Learning Research},
  month = {17--23 Jul},
  publisher = {PMLR},
  pdf = {https://proceedings.mlr.press/v162/bai22d/bai22d.pdf},
  url = {https://proceedings.mlr.press/v162/bai22d.html},
}

@inproceedings{zheng2021fused,
  title={Fused acoustic and text encoding for multimodal bilingual pretraining and speech translation},
  author={Zheng, Renjie and Chen, Junkun and Ma, Mingbo and Huang, Liang},
  booktitle={International Conference on Machine Learning},
  pages={12736--12746},
  year={2021},
  organization={PMLR}
}

المساهمة في المجاذيف

أنت مرحب بك بحرارة لتقديم الأسئلة في المناقشات وتقارير الأخطاء في القضايا! أيضا ، نحن نقدر بشدة إذا كنت على استعداد للمساهمة في هذا المشروع!

المساهمين

شكر وتقدير

شكرًا جزيلاً لـ Highcwu لإضافة أمثلة Vits-Aishell3 و Vits-VC.
شكرًا جزيلاً لـ David-95 على إصلاح الأخطاء متعددة التقييم ، والمساهمة في برنامج وبيانات متعددة ، وإضافة SSML للواجهة الأمامية TTS الصينية.
شكرا جزيلا ل Barrykcl لتحسين TTS Chises Frontend استنادا إلى G2PW.
شكرًا جزيلاً لـ Yeyupiaoling/PPASR/PADDLEPADDLE-DEEPEEDE/VoicePrinTrecognition-Paddlepaddle/Audioclassification-paddlepaddle لسنوات من الاهتمام والنصائح البناءة ومساعدة كبيرة.
شكرًا جزيلاً لـ MyMagicPower لتنفيذ Java لـ ASR على ملفات صوتية قصيرة وطويلة.
شكرًا جزيلاً لـ JIEHANGXIE/PADLEBOBO لتطوير التحميل الظاهري (VUP)/YouTuber الظاهري (VTUBER) مع وظيفة TTS PADDLESPEEDE.
شكرا جزيلا إلى 745165806/paddlespeechtask للمساهمة في نموذج استعادة علامات الترقيم.
شكرا جزيلا لـ KSLZ على الوثائق الصينية التكميلية.
شكرا جزيلا لـ AWMMMM للمساهمة في نموذج Fastspeade2 Aishell3 ASHELL3.
شكرًا جزيلاً لـ PHECDA-XU/PADDledubbing لتطوير أداة Dubbing باستخدام واجهة المستخدم الرسومية على نموذج TTS Paddlespeech.
شكرًا جزيلاً لـ Jerryuho/VtuberTalk لتطوير أداة واجهة المستخدم الرسومية على أساس TTS Paddlespeech TTS والرمز لصنع مجموعات البيانات من مقاطع الفيديو بناءً على paddlespeech ASR.
شكرًا جزيلاً لـ Vpegasus/Xuesebot لتطوير Rasa chatbot ، والتي يمكنها التحدث والاستماع بفضل paddlespeech.
شكرًا جزيلاً لـ Chenkui164/fastasr لتنفيذ الاستدلال C ++ لـ Paddlespeech ASR.
شكرًا جزيلاً لـ Heyudage/VoicEtyping لتنفيذ أداة الكتابة الصوتية في الوقت الفعلي لخدمات تدفق Paddlespeech ASR.
شكرًا جزيلاً لـ Escaticzheng/PS3.9 Wheel-install لعجلة Python3.9 المسبقة لتثبيت Paddlespeech في Windows بدون Viusal Studio. علاوة على ذلك ، يعتمد المجاذيف على الكثير من مستودعات المصادر المفتوحة. انظر المراجع لمزيد من المعلومات.
شكرًا جزيلاً لـ Chinobing/fastapi-paddlespeech-udio-to-text لتحويل الصوت إلى رسالة نصية استنادًا إلى fastapi و paddlespeech.
شكرًا جزيلاً لـ Misteo/Pallas-Bot لـ QQ Bot بناءً على TTS Paddlespeech.