parrots
1.0.1
??中国語|英語|ドキュメント/ドキュメント| ?モデル/モデル


オウム、自動音声認識( ASR )、テキストからスピーチ( TTS )ツールキット、中国語、英語、日本語などをサポートします。
オウムは、箱から出して中国語と英語をサポートする音声認識と音声合成モデルへのワンクリックコールを実装します。
distilwhisperに基づく中国の音声認識(ASR)モデルは、中国語や英語などの複数の言語をサポートしています。GPT-SoVITSトレーニングに基づく音声合成(TTS)モデル、中国語、英語、日本語、その他の言語をサポートしますpip install torch # or conda install pytorch
pip install -r requirements.txt
pip install parrotsまたは
pip install torch # or conda install pytorch
git clone https://github.com/shibing624/parrots.git
cd parrots
python setup.py install
実行例:例/tts_gradio_demo.pyデモを見るには:
python examples/tts_gradio_demo.py例:例/demo_asr.py
import os
import sys
sys . path . append ( '..' )
from parrots import SpeechRecognition
pwd_path = os . path . abspath ( os . path . dirname ( __file__ ))
if __name__ == '__main__' :
m = SpeechRecognition ()
r = m . recognize_speech_from_file ( os . path . join ( pwd_path , 'tushuguan.wav' ))
print ( '[提示] 语音识别结果:' , r )出力:
{'text': '北京图书馆'}
例:Examples/demo_tts.py
import sys
sys . path . append ( '..' )
import parrots
from parrots . tts import TextToSpeech
parrots_path = parrots . __path__ [ 0 ]
sys . path . append ( parrots_path )
m = TextToSpeech (
speaker_model_path = "shibing624/parrots-gpt-sovits-speaker-maimai" ,
speaker_name = "MaiMai" ,
)
m . predict (
text = "你好,欢迎来北京。welcome to the city." ,
text_language = "auto" ,
output_path = "output_audio.wav"
)出力:
Save audio to output_audio.wav
コマンドライン、コード:cli.pyを介したARSおよびTTSタスクの実行をサポートする
> parrots -h
NAME
parrots
SYNOPSIS
parrots COMMAND
COMMANDS
COMMAND is one of the following:
asr
Entry point of asr, recognize speech from file
tts
Entry point of tts, generate speech audio from text
走る:
pip install parrots -U
# asr example
parrots asr -h
parrots asr examples/tushuguan.wav
# tts example
parrots tts -h
parrots tts "你好,欢迎来北京。welcome to the city. " output_audio.wavasrとtts二次コマンドであり、ASRは音声認識、TTSは音声合成、デフォルトモデルは中国モデルですparrots asr -h参照してくださいexamples/tushuguan.wavは、 asrメソッドのaudio_file_pathパラメーターと入力オーディオファイル(必須)です。 | スピーカー名 | スピーカーの名前 | キャラクター | 特性 | 言語 | 言語 |
|---|---|---|---|---|---|
| クイレブラン | Kwai Lebron | レディ | 標準的なアメリカの女性の声 | en | 英国 |
| ロングショーレン | 長い少量 | 紳士 | 標準的なアメリカの男性の声 | en | 英国 |
| マイマイ | 販売と販売 | 女性のアンカーを歌います | 女性のアンカーの声を歌います | Zh | 真ん中 |
| xingtong | スターアイ | エアガールを歌います | 活気のある女性の声 | Zh | 真ん中 |
| Xuanshen | 神を見せてください | ゲームの男性アンカー | ゲームの男性アンカーの声 | Zh | 真ん中 |
| クサナギネン | kusanagi ning | ロリ | ロリの女子学生の声 | JA | 日 |
| スピーカー名 | スピーカーの名前 | キャラクター | 特性 | 言語 | 言語 |
|---|---|---|---|---|---|
| マイマイ | 販売と販売 | 女性のアンカーを歌います | 女性のアンカーの声を歌います | Zh | 真ん中 |

研究でオウムを使用する場合は、次の形式で引用してください。
@misc{parrots,
title={parrots: ASR and TTS Tool},
author={Ming Xu},
year={2024},
howpublished={ url {https://github.com/shibing624/parrots}},
}ライセンス契約はApacheライセンス2.0で、商業目的で無料で使用できます。オウムリンクと承認契約を製品の説明に添付してください。
プロジェクトコードはまだ非常にラフです。コードが改善されている場合は、このプロジェクトに送信できます。提出する前に、次の2つのポイントに注意してください。
testsに対応する単体テストを追加しますpython -m pytestを使用してすべての単位テストを実行して、すべての単一テストが渡されるようにします後でPRを送信できます。