تنزيل parrots - تنزيل رمز المصدر parrots

parrots

كود الذكاء الاصطناعي

1.0.1

تنزيل

؟؟ الصينية | الإنجليزية | المستندات/المستندات | نماذج/نماذج

العرض التوضيحي عبر الإنترنت

الببغاوات: مجموعة أدوات ASR و TTS

مقدمة

الببغاوات ، التعرف على الكلام التلقائي ( ASR ) ، مجموعة أدوات النص إلى الكلام ( TTS ) ، دعم الصينية ، الإنجليزية ، اليابانية ، إلخ.

تنفذ Parrots نماذج نداء نقرة واحدة إلى التعرف على الكلام وتوليف الكلام ، والتي هي خارج الصندوق ودعم اللغة الصينية والإنجليزية.

سمات

ASR: نموذج التعرف على الكلام الصيني (ASR) يعتمد على distilwhisper ، يدعم لغات متعددة مثل الصينية والإنجليزية.
TTS: نموذج تخليق صوتي (TTS) يعتمد على تدريب GPT-SoVITS ، يدعم اللغات الصينية والإنجليزية واليابانية وغيرها من اللغات

ثَبَّتَ

pip install torch # or conda install pytorch
pip install -r requirements.txt
pip install parrots

أو

pip install torch # or conda install pytorch
git clone https://github.com/shibing624/parrots.git
cd parrots
python setup.py install

العرض التوضيحي

العرض التوضيحي الرسمي: https://www.mulanai.com/product/tts/
العانق التوضيحي: https://huggingface.co/spaces/shibing624/parrots

قم بتشغيل مثال: أمثلة/tts_gradio_demo.py لرؤية العرض التوضيحي:

python examples/tts_gradio_demo.py

الاستخدام

ASR (التعرف على الكلام)

مثال: أمثلة/demo_asr.py

 import os
import sys

sys . path . append ( '..' )
from parrots import SpeechRecognition

pwd_path = os . path . abspath ( os . path . dirname ( __file__ ))

if __name__ == '__main__' :
    m = SpeechRecognition ()
    r = m . recognize_speech_from_file ( os . path . join ( pwd_path , 'tushuguan.wav' ))
    print ( '[提示] 语音识别结果：' , r )

الإخراج:

 {'text': '北京图书馆'}

TTS (تخليق الكلام)

مثال: أمثلة/demo_tts.py

 import sys
sys . path . append ( '..' )
import parrots
from parrots . tts import TextToSpeech
parrots_path = parrots . __path__ [ 0 ]
sys . path . append ( parrots_path )

m = TextToSpeech (
    speaker_model_path = "shibing624/parrots-gpt-sovits-speaker-maimai" ,
    speaker_name = "MaiMai" ,
)
m . predict (
    text = "你好，欢迎来北京。welcome to the city." ,
    text_language = "auto" ,
    output_path = "output_audio.wav"
)

الإخراج:

 Save audio to output_audio.wav

وضع سطر الأوامر (CLI)

دعم تنفيذ مهام ARS و TTS من خلال سطر الأوامر ، الكود: cli.py

 > parrots -h                                    

NAME
    parrots

SYNOPSIS
    parrots COMMAND

COMMANDS
    COMMAND is one of the following:

     asr
       Entry point of asr, recognize speech from file

     tts
       Entry point of tts, generate speech audio from text

يجري:

pip install parrots -U
# asr example
parrots asr -h
parrots asr examples/tushuguan.wav

# tts example
parrots tts -h
parrots tts "你好，欢迎来北京。welcome to the city. " output_audio.wav

asr و tts هي أوامر ثانوية ، ASR هو التعرف على الكلام ، TTS هو توليف الكلام ، والنموذج الافتراضي هو النموذج الصيني
انظر parrots asr -h لاستخدام كل أمر ثانوي
في examples/tushuguan.wav هي المعلمة audio_file_path لطريقة asr ، وملف الصوت الإدخال (مطلوب)

نماذج الافراج

ASR

Belle-2/Belle-Distilwhisper-Large-V2-Zh

TTS

shibing624/parrots-gpt-sovits speaker

اسم المتحدث	اسم المتحدث	شخصية	صفات	لغة	لغة
Kuileblanc	كواي ليبرون	سيدة	صوت الأنثى الأمريكية القياسية	en	بريطانيا
Longshouren	لونغ شون	جنتلمان	صوت الذكور الأمريكي القياسي	en	بريطانيا
ميماي	بيع وبيع	تغني مذيعة الأنثى	غناء صوت المرساة الإناث	ZH	وسط
Xingtong	عين النجوم	غناء فتاة الهواء	صوت أنثى حيوي	ZH	وسط
Xuanshen	أظهر الله	لعبة الذكور مرساة	صوت مرساة الذكور للعبة	ZH	وسط
Kusanaginene	Kusanagi نينغ	لولي	صوت الطالبة الإناث لولي	جا	يوم

shibing624/parrots-gpt-sovits-speaker-maimai

اسم المتحدث	اسم المتحدث	شخصية	صفات	لغة	لغة
ميماي	بيع وبيع	تغني مذيعة الأنثى	غناء صوت المرساة الإناث	ZH	وسط

اتصال

القضية (اقتراحات):
راسلني: xuming: [email protected]
WeChat ME: أضفني معرف WeChat: Xuming624 ، أدخل مجموعة Python-NLP Communication ، ملاحظة: Name-Company Name-NLP

اقتباس

إذا كنت تستخدم الببغاوات في بحثك ، فيرجى اقتباسها بالتنسيق التالي:

@misc{parrots,
  title={parrots: ASR and TTS Tool},
  author={Ming Xu},
  year={2024},
  howpublished={ url {https://github.com/shibing624/parrots}},
}