(صينية مبسطة | الإنجليزية)

Paddlespeech هي مجموعة أدوات مفتوحة المصدر على منصة PaddlePaddle لمجموعة متنوعة من المهام الحرجة في الكلام والصوت ، مع النماذج الفنية والمتأثرة.
فازت Paddlespeech بجائزة NAACL2022 Best Demo ، يرجى مراجعة ورقتنا على Arxiv.
| إدخال الصوت | نتائج التعرف |
|---|---|
![]() | طرقت الباب على الجانب القديم من المبنى. |
![]() | أعتقد أن أهم شيء في الجري هو أن يجلب لي صحة جيدة. |
| إدخال الصوت | نتائج الترجمات |
|---|---|
![]() | طرقت الباب القديم لهذا المبنى. |
| نص الإدخال | الصوت الاصطناعي |
|---|---|
| كانت الحياة مثل علبة من الشوكولاتة ، فأنت لا تعرف أبدًا ما ستحصل عليه. | ![]() |
| صباح الخير ، اليوم هو 2020/10/29 ، مع الحد الأدنى لدرجة حرارة -3 درجة مئوية. | ![]() |
| جي جي جي ، جمع الدجاج ، والدجاج دجاجات شائكة. الدجاج الشوكي جائع ، جي جي وجي جي يساعد الدجاج. عندما يتم خلط الدجاج ، ينضم إليها جي جي. جي جي سريعًا جدًا في ضرب الدجاج ، والدجاج عاجل ، والمارقة عاجلة ، جي جي قلق ، ثم يضرب الدجاج. جي جي سريع لضرب الدجاج. عندما يكون الدجاج ميتًا ، فإن Ji Ji متحمس ، ويكتب "Ji Ji's يطرق الدجاج". | ![]() |
| مرحبًا بالجميع ، أنا مدرس الببغاء الظاهري. دعنا نقرأ قصيدة. أنا ونسيم الربيع يمرون. تأخذ ماء الخريف لأخذ المجرة. | ![]() |
| Ikea ليس ضروريًا لكي تتحدث عنه ، لكن ما تقوله سيصبح عرضًا تقديميًا واعترافًا. | ![]() |
| كل بلد له نشيد وطني خاص به | ![]() |
لمزيد من السمعات المصنفة ، يرجى الرجوع إلى عينات نص إلى محطات النقل إلى الكلام.
| نص الإدخال | نص الإخراج |
|---|---|
| الطقس جيد حقا اليوم. هل لديك وقت في فترة ما بعد الظهر؟ أريد أن أطلب منك تناول العشاء معًا | الطقس اليوم جيد حقًا! هل أنت حر في فترة ما بعد الظهر؟ أريد أن أطلب منك تناول وجبة معًا. |
من خلال التنفيذ السهل الاستخدام والفعال والمرن والقابل للتطوير ، تتمثل رؤيتنا في تمكين كل من التطبيقات الصناعية والبحث الأكاديمي ، بما في ذلك التدريب ، وحدات الاستدلال والاختبار ، وعملية النشر. لكي تكون أكثر تحديدًا ، ميزات مجموعة الأدوات هذه على:
PaddleSpeech Streaming Server Streaming ASR مع Punctuation Restoration وجهاز Token Timestamp Text-to-Speech .PaddleSpeech Server Audio Classification ، Automatic Speech Recognition ، والتحقق Text-to-Speech ، Speaker Verification Punctuation Restoration .PaddleSpeech CLI Speaker Verification .PaddleSpeech CLI Audio Classification ، Automatic Speech Recognition ، Speech Translation (English to Chinese) Text-to-Speech .
نوصي المستخدمين بشدة بتثبيت مجاذيف في Linux مع Python> = 3.8 و Paddlepaddle <= 2.5.1 . بعض الإصدارات الجديدة من Paddle ليس لها دعم للتكيف في المجاذيف ، لذلك يمكن دعم الإصدارات 2.5.1 حاليًا فقط.
يعتمد المجاذيف على Paddlepaddle. للتثبيت ، يرجى الرجوع إلى موقع الويب الرسمي لـ PaddlePaddle واختياره وفقًا لجهازك الخاص. فيما يلي مثال على إصدار وحدة المعالجة المركزية.
pip install paddlepaddle -i https://mirror.baidu.com/pypi/simpleيمكنك أيضًا تحديد إصدار PaddlePaddle أو تثبيت الإصدار.
# install 2.4.1 version. Note, 2.4.1 is just an example, please follow the minimum dependency of paddlepaddle for your selection
pip install paddlepaddle==2.4.1 -i https://mirror.baidu.com/pypi/simple
# install develop version
pip install paddlepaddle==0.0.0 -f https://www.paddlepaddle.org.cn/whl/linux/cpu-mkl/develop.htmlهناك طريقتان سريعتان للتثبيت للتجديف ، والآخر هو تثبيت PIP ، والآخر هو تجميع رمز المصدر (موصى به).
pip install pytest-runner
pip install paddlespeechgit clone https://github.com/PaddlePaddle/PaddleSpeech.git
cd PaddleSpeech
pip install pytest-runner
pip install .لمزيد من مشكلات التثبيت ، مثل بيئة كوندا ، ومشاكل تعتمد على المكتب ، ومشاكل GCC ، وتثبيت Kaldi ، وما إلى ذلك ، يمكنك الرجوع إلى مستند التثبيت هذا. إذا واجهت مشاكل أثناء التثبيت ، يمكنك ترك رسالة على #2150 والعثور على المشكلات ذات الصلة
يمكن للمطورين تجربة نماذجنا باستخدام سطر أوامر paddlespeech أو Python. تغيير --input لاختبار الصوت/النص الخاص بك ودعم الصوت 16K WAV تنسيق.
يمكنك أيضًا تجربة ذلك بسرعة في استوديو الذكاء الاصطناعي؟ Paddlespeech API Demo
اختبار تنزيل نموذج الصوت
wget -c https://paddlespeech.bj.bcebos.com/PaddleAudio/zh.wav
wget -c https://paddlespeech.bj.bcebos.com/PaddleAudio/en.wavتجربة سطر الأوامر
paddlespeech asr --lang zh --input zh.wavPython API تجربة
> >> from paddlespeech . cli . asr . infer import ASRExecutor
> >> asr = ASRExecutor ()
> >> result = asr ( audio_file = "zh.wav" )
> >> print ( result )
我认为跑步最重要的就是给我带来了身体健康الإخراج 24K معدل العينة WAV تنسيق الصوت
تجربة سطر الأوامر
paddlespeech tts --input "你好,欢迎使用百度飞桨深度学习框架! " --output output.wavPython API تجربة
> >> from paddlespeech . cli . tts . infer import TTSExecutor
> >> tts = TTSExecutor ()
> >> tts ( text = "今天天气十分不错。" , output = "output.wav" )نموذج تصنيف الصوت يعتمد على 527 فئة من مجموعة بيانات AudioSet
تجربة سطر الأوامر
paddlespeech cls --input zh.wavPython API تجربة
> >> from paddlespeech . cli . cls . infer import CLSExecutor
> >> cls = CLSExecutor ()
> >> result = cls ( audio_file = "zh.wav" )
> >> print ( result )
Speech 0.9027186632156372تجربة سطر الأوامر
paddlespeech vector --task spk --input zh.wavPython API تجربة
> >> from paddlespeech . cli . vector import VectorExecutor
> >> vec = VectorExecutor ()
> >> result = vec ( audio_file = "zh.wav" )
> >> print ( result ) # 187维向量
[ - 0.19083306 9.474295 - 14.122263 - 2.0916545 0.04848729
4.9295826 1.4780062 0.3733844 10.695862 3.2697146
- 4.48199 - 0.6617882 - 9.170393 - 11.1568775 - 1.2358263 ...]تجربة سطر الأوامر
paddlespeech text --task punc --input 今天的天气真不错啊你下午有空吗我想约你一起去吃饭Python API تجربة
> >> from paddlespeech . cli . text . infer import TextExecutor
> >> text_punc = TextExecutor ()
> >> result = text_punc ( text = "今天的天气真不错啊你下午有空吗我想约你一起去吃饭" )
今天的天气真不错啊!你下午有空吗?我想约你一起去吃饭。استخدم أدوات Kaldi ذات الصلة مسبقًا ، فقط تجربة الدعم في نظام Ubuntu
تجربة سطر الأوامر
paddlespeech st --input en.wavPython API تجربة
> >> from paddlespeech . cli . st . infer import STExecutor
> >> st = STExecutor ()
> >> result = st ( audio_file = "en.wav" )
[ '我 在 这栋 建筑 的 古老 门上 敲门 。' ]يمكن للمطورين تجربة خادم الكلام الخاص بنا باستخدام سطر أوامر Paddlespeech Server.
يمكنك تجربته بسرعة في AI Studio (يوصي): خطاب ercerver
ابدأ الخادم
paddlespeech_server start --config_file ./demos/speech_server/conf/application.yamlخدمات التعرف على الكلام
paddlespeech_client asr --server_ip 127.0.0.1 --port 8090 --input input_16k.wavوصول النص إلى خدمات الكلام
paddlespeech_client tts --server_ip 127.0.0.1 --port 8090 --input "您好,欢迎使用百度飞桨语音合成服务。 " --output output.wavالوصول إلى خدمات تصنيف الصوت
paddlespeech_client cls --server_ip 127.0.0.1 --port 8090 --input input.wavلمزيد من المعلومات حول أسطر أوامر الخادم ، يرجى الاطلاع على: عروض خادم الكلام
يمكن للمطورين محاولة دفق ASR وخادم TTS البث.
ابدأ في دفق خادم التعرف على الكلام
paddlespeech_server start --config_file ./demos/streaming_asr_server/conf/application.yaml
الوصول إلى دفق خدمات التعرف على الكلام
paddlespeech_client asr_online --server_ip 127.0.0.1 --port 8090 --input input_16k.wav
ابدأ في دفق النص إلى خادم الكلام
paddlespeech_server start --config_file ./demos/streaming_tts_server/conf/tts_online_application.yaml
الوصول إلى نص دفق إلى خدمات الكلام
paddlespeech_client tts_online --server_ip 127.0.0.1 --port 8092 --protocol http --input "您好,欢迎使用百度飞桨语音合成服务。" --output output.wav
لمزيد من المعلومات ، يرجى الاطلاع على: دفق ASR وتدفق TTS
يدعم Paddlespeech سلسلة من النماذج الأكثر شعبية. يتم تلخيصها في النماذج التي تم إصدارها وتوصيلها مع النماذج المسبقة المتاحة.
يحتوي الكلام إلى النص على نموذج صوتي ونموذج لغة وترجمة الكلام ، مع التفاصيل التالية:
| نوع وحدة الكلام إلى النص | مجموعة البيانات | نوع النموذج | مثال |
|---|---|---|---|
| إعادة إدراج الكلام | آيل | نماذج قائمة على DeepSpeech2 RNN + | Deepppeesh2-Aishell |
| نماذج الانتباه القائمة على المحولات | u2.transformer.conformer-aishell | ||
| Librispeech | نماذج الانتباه القائمة على المحولات | deepppeesh2-librispirech/transformer.conformer.u2-librispirech/transformer.conformer.u2-kaldi-librispirech | |
| توقيت | تدفق موحد وغير مدعو | U2-TICIT | |
| تنسيق | THCHS30 | MFA | MFA-thchs30 |
| نموذج اللغة | نموذج لغة ngram | كينلم | |
| ترجمة الكلام (الإنجليزية إلى الصينية) | تيد en-zh | المحول + ASR MTL | محول |
| FAT + Transformer + ASR MTL | فات سانت | ||
يحتوي النص على الكلام في المجاذيف بشكل أساسي على ثلاث وحدات: الواجهة الأمامية النصية ، النموذج الصوتي والمتفرج . يتم إدراج نماذج النموذج الصوتي والمتفرج على النحو التالي:
| نوع وحدة النص إلى الكلام | نوع النموذج | مجموعة البيانات | مثال |
|---|---|---|---|
| نص نص | TN/G2P | ||
| نموذج صوتي | Tacotron2 | LJSPEEDE/CSMSC | Tacotron2-ljspeech/tacotron2-csmsc |
| Transformer TTS | ljspeech | محول ljspeech | |
| speedyspeech | CSMSC | speedySpeech-CSMSC | |
| Fastspeech2 | LJSPEEDE / VCTK / CSMSC / AISHELL-3 / ZH_EN / FineUne | fastspech2-ljspeech/fastspeech2-vctk/fastspeade2-csmsc/fastspeade2-aishell3/fastspeade2-zh_en/fastspeesh2-finenetune | |
| إرني سات | VCTK / AISHELL-3 / ZH_EN | Ernie-Sat-VCTK / Ernie-Sat-Aishell3 / Ernie-Sat-zh_en | |
| Diffsinger | opencpop | Diffsinger-opencpop | |
| Vocoder | تدفق الموجة | ljspeech | موجة التدفق ljspeech |
| موازي Wavegan | LJSPEEDE / VCTK / CSMSC / AISHELL-3 / OPENCPOP | PWGAN-LJSPEEDE / PWGAN-VCTK / PWGAN-CSMSC / PWGAN-AISHELL3 / PWGAN-OPENCPOP | |
| متعددة الفرقة ميليغان | CSMSC | متعدد النطاق Melgan-CSMSC | |
| نمط ميليجان | CSMSC | نمط melgan-CSMSC | |
| هيفيجان | LJSPEEDE / VCTK / CSMSC / AISHELL-3 / OPENCPOP | Hifigan-ljspeech / Hifigan-VCTK / Hifigan-CSMSC / Hifigan-Aishell3 / Hifigan-Opencpop | |
| ويفرن | CSMSC | Wavernn-CSMSC | |
| استنساخ الصوت | GE2E | Librispeech ، إلخ. | GE2E |
| SV2TTS (Ge2e + Tacotron2) | Aishell-3 | VC0 | |
| SV2TTS (GE2E + Fastspeade2) | Aishell-3 | VC1 | |
| SV2TTS (ECAPA-TDNN + FASTSPEESH2) | Aishell-3 | VC2 | |
| Ge2e + Vits | Aishell-3 | Vits-Vc | |
| من طرف إلى طرف | حالات | CSMSC / Aishell-3 | Vits-CSMSC/Vits-Aishell3 |
تصنيف الصوت
| مهمة | مجموعة البيانات | نوع النموذج | مثال |
|---|---|---|---|
| تصنيف الصوت | ESC-50 | بان | pann-esc50 |
اكتشاف الكلمات الرئيسية
| مهمة | مجموعة البيانات | نوع النموذج | مثال |
|---|---|---|---|
| اكتشاف الكلمات الرئيسية | مهلا snips | MDTC | MDTC-Hey-Snips |
التحقق من المتحدث
| مهمة | مجموعة البيانات | نوع النموذج | مثال |
|---|---|---|---|
| التحقق من المتحدث | voxceleb1/2 | ecapa-tdnn | ecapa-tdnn-voxceleb12 |
مذكرات المتحدث
| مهمة | مجموعة البيانات | نوع النموذج | مثال |
|---|---|---|---|
| مذكرات المتحدث | أمي | ECAPA-TDNN + AHC / SC | ecapa-tdnn-ami |
ترقيم الترقيم
| مهمة | مجموعة البيانات | نوع النموذج | مثال |
|---|---|---|---|
| ترقيم الترقيم | iwlst2012_zh | إرني الخطي | IWSLT2012-PUNCH0 |
عادة ، تمنحك الكلام Sota و Audio Sota و Music Sota نظرة عامة على الموضوعات الأكاديمية الساخنة في المنطقة ذات الصلة. للتركيز على المهام في المجاذيف ، ستجد أن الإرشادات التالية مفيدة لبدء الأفكار الأساسية.
تسمى وحدة النص إلى الكلام في الأصل الببركة ، ويتم دمجها الآن مع هذا المستودع. إذا كنت مهتمًا بالبحث الأكاديمي حول هذه المهمة ، فيرجى الاطلاع على نظرة عامة على TTS Research. أيضا ، هذا المستند هو دليل جيد لمكونات خط الأنابيب.
الفيديو التجريبي paddlespeech
VtuberTalk: استخدم Paddlespeech TTS و ASR لاستنساخ الصوت من مقاطع الفيديو.
للاستشهاد بالمجاذيف للبحث ، يرجى استخدام التنسيق التالي.
@inproceedings{zhang2022paddlespeech,
title = {PaddleSpeech: An Easy-to-Use All-in-One Speech Toolkit},
author = {Hui Zhang, Tian Yuan, Junkun Chen, Xintong Li, Renjie Zheng, Yuxin Huang, Xiaojie Chen, Enlei Gong, Zeyu Chen, Xiaoguang Hu, dianhai yu, Yanjun Ma, Liang Huang},
booktitle = {Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies: Demonstrations},
year = {2022},
publisher = {Association for Computational Linguistics},
}
@InProceedings{pmlr-v162-bai22d,
title = {{A}$^3${T}: Alignment-Aware Acoustic and Text Pretraining for Speech Synthesis and Editing},
author = {Bai, He and Zheng, Renjie and Chen, Junkun and Ma, Mingbo and Li, Xintong and Huang, Liang},
booktitle = {Proceedings of the 39th International Conference on Machine Learning},
pages = {1399--1411},
year = {2022},
volume = {162},
series = {Proceedings of Machine Learning Research},
month = {17--23 Jul},
publisher = {PMLR},
pdf = {https://proceedings.mlr.press/v162/bai22d/bai22d.pdf},
url = {https://proceedings.mlr.press/v162/bai22d.html},
}
@inproceedings{zheng2021fused,
title={Fused acoustic and text encoding for multimodal bilingual pretraining and speech translation},
author={Zheng, Renjie and Chen, Junkun and Ma, Mingbo and Huang, Liang},
booktitle={International Conference on Machine Learning},
pages={12736--12746},
year={2021},
organization={PMLR}
}
أنت مرحب بك بحرارة لتقديم الأسئلة في المناقشات وتقارير الأخطاء في القضايا! أيضا ، نحن نقدر بشدة إذا كنت على استعداد للمساهمة في هذا المشروع!
يتم توفير paddlespeech تحت ترخيص Apache-2.0.