Download parrots - download de código fonte parrots

parrots

Código-Fonte de IA

1.0.1

Baixar

?? Chinês | Inglês | Documentos/documentos | ? Modelos/modelos

Demonstração online

Papagaios: ASR e TTS Toolkit

Introdução

Papagaios, reconhecimento automático de fala ( ASR ), kit de ferramentas de texto em fala ( TTS ), suporte a chinês, inglês, japonês, etc.

Os papagaios implementos de um clique de um clique para o reconhecimento de fala e os modelos de síntese de fala, que estão fora da caixa e apoiam chinês e inglês.

Características

ASR: o modelo de reconhecimento de fala chinesa (ASR) baseado em distilwhisper , suporta vários idiomas, como chinês e inglês.
TTS: Um modelo de síntese de voz (TTS) baseado no treinamento GPT-SoVITS , suporta chinês, inglês, japonês e outros idiomas

Instalar

pip install torch # or conda install pytorch
pip install -r requirements.txt
pip install parrots

ou

pip install torch # or conda install pytorch
git clone https://github.com/shibing624/parrots.git
cd parrots
python setup.py install

Demonstração

Demonstração oficial: https://www.mulanai.com/product/tts/
Demo de Huggingface: https://huggingface.co/spaces/shibing624/parrots

Exemplo de execução: exemplos/tts_gradio_demo.py para ver a demonstração:

python examples/tts_gradio_demo.py

Uso

ASR (reconhecimento de fala)

Exemplo: Exemplos/Demo_asr.py

 import os
import sys

sys . path . append ( '..' )
from parrots import SpeechRecognition

pwd_path = os . path . abspath ( os . path . dirname ( __file__ ))

if __name__ == '__main__' :
    m = SpeechRecognition ()
    r = m . recognize_speech_from_file ( os . path . join ( pwd_path , 'tushuguan.wav' ))
    print ( '[提示] 语音识别结果：' , r )

saída:

 {'text': '北京图书馆'}

TTS (síntese de fala)

Exemplo: Exemplos/Demo_tts.py

 import sys
sys . path . append ( '..' )
import parrots
from parrots . tts import TextToSpeech
parrots_path = parrots . __path__ [ 0 ]
sys . path . append ( parrots_path )

m = TextToSpeech (
    speaker_model_path = "shibing624/parrots-gpt-sovits-speaker-maimai" ,
    speaker_name = "MaiMai" ,
)
m . predict (
    text = "你好，欢迎来北京。welcome to the city." ,
    text_language = "auto" ,
    output_path = "output_audio.wav"
)

saída:

 Save audio to output_audio.wav

Modo de linha de comando (CLI)

Suporte a execução de tarefas ARS e TTS através da linha de comando, código: cli.py

 > parrots -h                                    

NAME
    parrots

SYNOPSIS
    parrots COMMAND

COMMANDS
    COMMAND is one of the following:

     asr
       Entry point of asr, recognize speech from file

     tts
       Entry point of tts, generate speech audio from text

correr:

pip install parrots -U
# asr example
parrots asr -h
parrots asr examples/tushuguan.wav

# tts example
parrots tts -h
parrots tts "你好，欢迎来北京。welcome to the city. " output_audio.wav

asr e tts são comandos secundários, o ASR é o reconhecimento de fala, o TTS é a síntese de fala e o modelo padrão é o modelo chinês
Veja parrots asr -h para o uso de cada comando secundário
Nos examples/tushuguan.wav é o parâmetro audio_file_path do método asr , e o arquivo de áudio de entrada (necessário)

Modelos de liberação

ASR

Belle-2/Belle-Distilwhisper-Large-V2-ZH

TTS

Shibing624/Parrots-GPT-Sovits-Speaker

Nome do alto -falante	Nome do orador	personagem	Características	linguagem	linguagem
KuileBlanc	Kwai LeBron	senhora	Voz feminina americana padrão	en	Grã -Bretanha
Longshouren	Long Shouren	cavalheiro	Voz masculina americana padrão	en	Grã -Bretanha
Maimai	Vender e vender	Cante âncora feminina	Voz de âncora cantando	Zh	meio
Xingtong	Olho de estrela	Cante Air Girl	Voz feminina animada	Zh	meio
Xuanshen	Mostrar Deus	âncora masculina de jogo	A voz da âncora masculina do jogo	Zh	meio
Kusanaginene	Kusanagi Ning	loli	Loli Feminina Student Voice	JA	dia

Shibing624/Parrots-GPT-Sovits-falante-maimai

Nome do alto -falante	Nome do orador	personagem	Características	linguagem	linguagem
Maimai	Vender e vender	Cante âncora feminina	Voz de âncora cantando	Zh	meio

Contato

Edição (sugestões):
Envie -me um e -mail: xuming: [email protected]
WECHAT ME: Adicione-me WeChat ID: Xuming624 , digite o grupo de comunicação Python-NLP, Nota: Nome de nome Nome-NLP

Citação

Se você usar papagaios em sua pesquisa, cite -a no seguinte formato:

@misc{parrots,
  title={parrots: ASR and TTS Tool},
  author={Ming Xu},
  year={2024},
  howpublished={ url {https://github.com/shibing624/parrots}},
}

Licença

O contrato de licença é o Apache License 2.0, que pode ser usado para fins comerciais gratuitamente. Anexe o link dos papagaios e o contrato de autorização à descrição do produto.

Contribuir

O código do projeto ainda é muito difícil. Se você melhorou o código, poderá enviá -lo de volta a este projeto. Antes de enviar, preste atenção aos dois pontos a seguir:

Adicionar testes de unidade correspondentes em tests
Use python -m pytest para executar todos os testes de unidade para garantir que todos os testes únicos sejam passados

Você pode enviar seu PR mais tarde.