؟؟ الصينية | الإنجليزية | المستندات/المستندات | نماذج/نماذج


الببغاوات ، التعرف على الكلام التلقائي ( ASR ) ، مجموعة أدوات النص إلى الكلام ( TTS ) ، دعم الصينية ، الإنجليزية ، اليابانية ، إلخ.
تنفذ Parrots نماذج نداء نقرة واحدة إلى التعرف على الكلام وتوليف الكلام ، والتي هي خارج الصندوق ودعم اللغة الصينية والإنجليزية.
distilwhisper ، يدعم لغات متعددة مثل الصينية والإنجليزية.GPT-SoVITS ، يدعم اللغات الصينية والإنجليزية واليابانية وغيرها من اللغات pip install torch # or conda install pytorch
pip install -r requirements.txt
pip install parrotsأو
pip install torch # or conda install pytorch
git clone https://github.com/shibing624/parrots.git
cd parrots
python setup.py install
قم بتشغيل مثال: أمثلة/tts_gradio_demo.py لرؤية العرض التوضيحي:
python examples/tts_gradio_demo.pyمثال: أمثلة/demo_asr.py
import os
import sys
sys . path . append ( '..' )
from parrots import SpeechRecognition
pwd_path = os . path . abspath ( os . path . dirname ( __file__ ))
if __name__ == '__main__' :
m = SpeechRecognition ()
r = m . recognize_speech_from_file ( os . path . join ( pwd_path , 'tushuguan.wav' ))
print ( '[提示] 语音识别结果:' , r )الإخراج:
{'text': '北京图书馆'}
مثال: أمثلة/demo_tts.py
import sys
sys . path . append ( '..' )
import parrots
from parrots . tts import TextToSpeech
parrots_path = parrots . __path__ [ 0 ]
sys . path . append ( parrots_path )
m = TextToSpeech (
speaker_model_path = "shibing624/parrots-gpt-sovits-speaker-maimai" ,
speaker_name = "MaiMai" ,
)
m . predict (
text = "你好,欢迎来北京。welcome to the city." ,
text_language = "auto" ,
output_path = "output_audio.wav"
)الإخراج:
Save audio to output_audio.wav
دعم تنفيذ مهام ARS و TTS من خلال سطر الأوامر ، الكود: cli.py
> parrots -h
NAME
parrots
SYNOPSIS
parrots COMMAND
COMMANDS
COMMAND is one of the following:
asr
Entry point of asr, recognize speech from file
tts
Entry point of tts, generate speech audio from text
يجري:
pip install parrots -U
# asr example
parrots asr -h
parrots asr examples/tushuguan.wav
# tts example
parrots tts -h
parrots tts "你好,欢迎来北京。welcome to the city. " output_audio.wavasr و tts هي أوامر ثانوية ، ASR هو التعرف على الكلام ، TTS هو توليف الكلام ، والنموذج الافتراضي هو النموذج الصينيparrots asr -h لاستخدام كل أمر ثانويexamples/tushuguan.wav هي المعلمة audio_file_path لطريقة asr ، وملف الصوت الإدخال (مطلوب) | اسم المتحدث | اسم المتحدث | شخصية | صفات | لغة | لغة |
|---|---|---|---|---|---|
| Kuileblanc | كواي ليبرون | سيدة | صوت الأنثى الأمريكية القياسية | en | بريطانيا |
| Longshouren | لونغ شون | جنتلمان | صوت الذكور الأمريكي القياسي | en | بريطانيا |
| ميماي | بيع وبيع | تغني مذيعة الأنثى | غناء صوت المرساة الإناث | ZH | وسط |
| Xingtong | عين النجوم | غناء فتاة الهواء | صوت أنثى حيوي | ZH | وسط |
| Xuanshen | أظهر الله | لعبة الذكور مرساة | صوت مرساة الذكور للعبة | ZH | وسط |
| Kusanaginene | Kusanagi نينغ | لولي | صوت الطالبة الإناث لولي | جا | يوم |
| اسم المتحدث | اسم المتحدث | شخصية | صفات | لغة | لغة |
|---|---|---|---|---|---|
| ميماي | بيع وبيع | تغني مذيعة الأنثى | غناء صوت المرساة الإناث | ZH | وسط |

إذا كنت تستخدم الببغاوات في بحثك ، فيرجى اقتباسها بالتنسيق التالي:
@misc{parrots,
title={parrots: ASR and TTS Tool},
author={Ming Xu},
year={2024},
howpublished={ url {https://github.com/shibing624/parrots}},
}اتفاقية الترخيص هي ترخيص Apache 2.0 ، والذي يمكن استخدامه لأغراض تجارية مجانًا. يرجى إرفاق ارتباط الببغاوات واتفاقية التفويض بوصف المنتج.
لا يزال رمز المشروع خشنًا للغاية. إذا قمت بتحسين الرمز ، فأنت مرحب بك لإرساله إلى هذا المشروع. قبل تقديمه ، انتبه إلى النقطتين التاليتين:
testspython -m pytest لتشغيل جميع اختبارات الوحدة لضمان اجتياز جميع الاختبارات الفرديةيمكنك تقديم العلاقات العامة الخاصة بك لاحقًا.