?? จีน | ภาษาอังกฤษ | เอกสาร/เอกสาร | รุ่น/รุ่น


นกแก้ว, การรู้จำเสียงพูดอัตโนมัติ ( ASR ), ชุดเครื่องมือ text-to-speech ( TTS ), สนับสนุนจีน, อังกฤษ, ญี่ปุ่น, ฯลฯ
Parrots ใช้การโทรแบบคลิกเดียวเพื่อการรู้จำเสียงพูดและโมเดลการสังเคราะห์คำพูดซึ่งอยู่นอกกรอบและสนับสนุนภาษาจีนและภาษาอังกฤษ
distilwhisper รองรับหลายภาษาเช่นภาษาจีนและภาษาอังกฤษGPT-SoVITS สนับสนุนภาษาจีนอังกฤษญี่ปุ่นและภาษาอื่น ๆ pip install torch # or conda install pytorch
pip install -r requirements.txt
pip install parrotsหรือ
pip install torch # or conda install pytorch
git clone https://github.com/shibing624/parrots.git
cd parrots
python setup.py install
รันตัวอย่าง: ตัวอย่าง/tts_gradio_demo.py เพื่อดูการสาธิต:
python examples/tts_gradio_demo.pyตัวอย่าง: ตัวอย่าง/demo_asr.py
import os
import sys
sys . path . append ( '..' )
from parrots import SpeechRecognition
pwd_path = os . path . abspath ( os . path . dirname ( __file__ ))
if __name__ == '__main__' :
m = SpeechRecognition ()
r = m . recognize_speech_from_file ( os . path . join ( pwd_path , 'tushuguan.wav' ))
print ( '[提示] 语音识别结果:' , r )เอาท์พุท:
{'text': '北京图书馆'}
ตัวอย่าง: ตัวอย่าง/demo_tts.py
import sys
sys . path . append ( '..' )
import parrots
from parrots . tts import TextToSpeech
parrots_path = parrots . __path__ [ 0 ]
sys . path . append ( parrots_path )
m = TextToSpeech (
speaker_model_path = "shibing624/parrots-gpt-sovits-speaker-maimai" ,
speaker_name = "MaiMai" ,
)
m . predict (
text = "你好,欢迎来北京。welcome to the city." ,
text_language = "auto" ,
output_path = "output_audio.wav"
)เอาท์พุท:
Save audio to output_audio.wav
สนับสนุนการดำเนินงานของ ARS และ TTS ผ่านบรรทัดคำสั่งรหัส: cli.py
> parrots -h
NAME
parrots
SYNOPSIS
parrots COMMAND
COMMANDS
COMMAND is one of the following:
asr
Entry point of asr, recognize speech from file
tts
Entry point of tts, generate speech audio from text
วิ่ง:
pip install parrots -U
# asr example
parrots asr -h
parrots asr examples/tushuguan.wav
# tts example
parrots tts -h
parrots tts "你好,欢迎来北京。welcome to the city. " output_audio.wavasr และ tts เป็นคำสั่งรอง ASR คือการรู้จำเสียงพูด TTS เป็นการสังเคราะห์เสียงพูดและแบบจำลองเริ่มต้นคือรูปแบบภาษาจีนparrots asr -h สำหรับการใช้คำสั่งรองแต่ละคำสั่งexamples/tushuguan.wav เป็นพารามิเตอร์ audio_file_path ของวิธี asr และไฟล์เสียงอินพุต (จำเป็น) | ชื่อลำโพง | ชื่อของลำโพง | อักขระ | ลักษณะเฉพาะ | ภาษา | ภาษา |
|---|---|---|---|---|---|
| Kuileblanc | Kwai LeBron | ผู้หญิง | เสียงหญิงอเมริกันมาตรฐาน | en | สหราชอาณาจักร |
| Longshouren | ยาว Shouren | สุภาพบุรุษ | เสียงชายอเมริกันมาตรฐาน | en | สหราชอาณาจักร |
| มิด | ขายและขาย | ร้องเพลงสมอ | ร้องเพลงสมอหญิง | zh | กลาง |
| Xingtong | ตา | ร้องเพลง Air Girl | เสียงหญิงที่มีชีวิตชีวา | zh | กลาง |
| Xuanshen | อวดพระเจ้า | เกมสมอชาย | เสียงของผู้ประกาศข่าวชายของเกม | zh | กลาง |
| kusanaginene | Kusanagi Ning | loli | เสียงนักเรียนหญิง loli | จา | วัน |
| ชื่อลำโพง | ชื่อของลำโพง | อักขระ | ลักษณะเฉพาะ | ภาษา | ภาษา |
|---|---|---|---|---|---|
| มิด | ขายและขาย | ร้องเพลงสมอ | ร้องเพลงสมอหญิง | zh | กลาง |

หากคุณใช้นกแก้วในการวิจัยของคุณโปรดอ้างอิงในรูปแบบต่อไปนี้:
@misc{parrots,
title={parrots: ASR and TTS Tool},
author={Ming Xu},
year={2024},
howpublished={ url {https://github.com/shibing624/parrots}},
}ข้อตกลงใบอนุญาตคือ Apache License 2.0 ซึ่งสามารถใช้เพื่อวัตถุประสงค์ทางการค้าได้ฟรี โปรดแนบข้อตกลงลิงค์ Parrots และการอนุญาตให้เข้ากับคำอธิบายผลิตภัณฑ์
รหัสโครงการยังคงหยาบมาก หากคุณปรับปรุงรหัสแล้วคุณสามารถส่งกลับไปยังโครงการนี้ได้ ก่อนส่งให้ให้ความสนใจกับสองประเด็นต่อไปนี้:
testspython -m pytest เพื่อเรียกใช้การทดสอบหน่วยทั้งหมดเพื่อให้แน่ใจว่าการทดสอบครั้งเดียวทั้งหมดจะผ่านไปคุณสามารถส่ง PR ของคุณได้ในภายหลัง