Download PaddleSpeech - PaddleSpeech Código Fonte Download

PaddleSpeech

Código-Fonte de IA

PaddleSpeech r1.4.2

Baixar

(Chinês simplificado | inglês)

Iniciar rápido | Documentos | Lista de modelos | Aistudio Cursos | NAACL2022 MELHOR PRÊMIO DE DEMO NACO | Gitee

O Paddlespeech é um kit de ferramentas de código aberto na plataforma Paddlepaddle para uma variedade de tarefas críticas em fala e áudio, com os modelos de ponta e influência.

O Paddlespeech ganhou o prêmio de melhor demonstração NAACL2022, confira nosso artigo sobre Arxiv.

Reconhecimento de fala

Entrada de áudio	Resultados de reconhecimento
	Bati na porta do lado antigo do edifício.
	Eu acho que a coisa mais importante sobre a corrida é me trazer uma boa saúde.

Tradução de fala (inglês para chinês)

Entrada de áudio	Resultados das traduções
	Bati na porta antiga deste edifício.

Texto para fala

Texto de entrada	Áudio sintético
A vida era como uma caixa de chocolates, você nunca sabe o que vai conseguir.
Bom dia, hoje é 2020/10/29, com uma temperatura mínima de -3 ° C.
Ji ji, reunir galinhas e galinhas são galinhas espinhosas. O frango de espinhos está com fome, ji ji e ji ji ajudam o frango. Quando as galinhas são misturadas, elas se juntam por ji ji. Ji Ji é muito rápido em bater no frango, o frango é urgente e o desonesto é urgente, ji ji está ansioso e então ele bate no frango. Ji Ji é rápido em bater no frango. Quando o frango está morto, Ji Ji está animado e ele escreve o "ji ji está batendo o frango".
Olá a todos, eu sou o professor virtual do papagaio. Vamos ler um poema. Eu e a brisa da primavera estamos passando. Você pega a água do outono para tomar a galáxia.
A IKEA não é necessária para você falar, mas o que você diz se tornará uma apresentação e confissão.
Cada país tem seu próprio hino nacional

Para áudios mais sintetizados, consulte as amostras de texto em fala de Paddlespeech.

Restauração de pontuação

Texto de entrada	Texto de saída
O tempo está muito bom hoje. Você tem tempo à tarde? Eu quero pedir para você jantar juntos	O tempo hoje está muito bom! Você está livre à tarde? Eu quero pedir que você faça uma refeição juntos.

Características

Através da implementação fácil de usar, eficiente, flexível e escalável, nossa visão é capacitar a aplicação industrial e a pesquisa acadêmica, incluindo módulos de treinamento, inferência e teste e processo de implantação. Para ser mais específico, este kit de ferramentas em:

? Facilidade de uso : Barreiras baixas para instalar, CLI, servidor e servidor de streaming estão disponíveis para iniciar rapidamente sua jornada.
? Alinhado ao estado da arte : fornecemos modelos de alta velocidade e ultraleve e também tecnologia de ponta.
? Sistema de streaming ASR e TTS : Fornecemos a produção de streaming ASR pronta e o sistema TTS de streaming.
? Frontend chinês baseado em regras : Nosso front-end contém normalização de texto e grafema para fonema (G2P, incluindo Polyphone e Tone Sandhi). Além disso, usamos regras linguísticas autodefinidas para adaptar o contexto chinês.
? Variedades de funções que vitamam a industrial e a academia :
- ? ️ Implementação de tarefas críticas de áudio : este kit de ferramentas contém funções de áudio como reconhecimento automático de fala, síntese de texto a fala, verficação do alto-falante, spotting-chave, classificação de áudio e tradução de fala, etc.
- ? Integração de modelos e conjuntos de dados convencionais : o kit de ferramentas implementa módulos que participam de todo o pipeline das tarefas de fala e usa conjuntos de dados convencionais como LibriPeech, LJSpeech, Aishell, CSMSC, etc. Veja também a lista de modelos para obter mais detalhes.
- ? Aplicação de modelos em cascata : como uma extensão das tarefas típicas de áudio tradicional, combinamos os fluxos de trabalho das tarefas alienadas com outros campos, como processamento de linguagem natural (PNL) e visão computacional (CV).

Atualização recente

? 2023.05.31: Adicione WAVLM ASR-EN, WAVLM FINO TUNING PARA ASR ON LIBRISPEECH.
? 2023.05.18: Adicione o SqueezeFormer, SqueezeFormer Training for ASR no Aishell.
? 2023.05.04: Adicione Hubert ASR-en, Hubert Tuneing fino para ASR no Librispeech.
⚡ 2023.04.28: Corrija o tensor 0-D, com a atualização do paddlepaddle == 2.5, o problema de modificar o tensor 0-D foi resolvido.
? 2023.04.25: Adicione o amplificador para U2.
2023.04.06: Adicione o exemplo do arquivo de legenda (formato .srt).
2023.03.14: Adicione exemplos de SVS (síntese de voz de canto) com o conjunto de dados OpenCPOP, incluindo DiffSinger, PWGan e Hifigan, o efeito é otimizado continuamente.
? 2023.03.09: adicione wav2vec2asr-en.
? 2023.03.07: Adicione a demonstração do TTS Arm Linux C ++ (com C ++ Frontend de texto chinês).
2023.03.03 Adicione a conversão de voz Starganv2-VC sintetize o pipeline.
? 2023.02.16: Adicione TTS cantonês.
2023.01.10: Adicione o comando de código ASR CLI e demos.
? 2023.01.06: Adicione receita de comutação de código ASR TAL_CS.
? 2022.12.02: Adicione o pipeline de previsão de prosódia de ponta a ponta (incluindo o uso de rótulos de prosódia no modelo acústico).
? 2022.11.30: Adicione a demonstração do Android TTS.
? 2022.11.28: As demos PP-TTS e PP-ASR estão disponíveis no Aistudio e no site oficial do Paddlepaddle.
? 2022.11.18: Adicione a CLI e as demos sussurros, suporte o reconhecimento e a tradução de múltiplas idiomas.
2022.11.18: Adicione WAV2VEC2 CLI e demos, suporte ASR e extração de recursos.
? 2022.11.17: Adicione a voz masculina para TTS.
2022.11.07: Adicione a implantação U2/U2 ++ C ++ de alto desempenho ASR.
? 2022.11.01: Adicione perda adversária ao inglês chinês TTS misto.
2022.10.26: Adicione previsão de prosódia para TTS.
? 2022.10.21: Adicione SSML para o front -end de texto chinês TTS.
? 2022.10.11: Adicione WAV2VEC2ASR-EN, WAV2VEC2.0 Ajuste fino para ASR no Librisseech.
2022.09.26: Adicione a clonagem de voz, o TTS FineTune e o Ernie-SAT na demonstração da Web Paddlespeech.
⚡ 2022.09.09: Adicione o exemplo de clonagem de voz Aishell-3 com o codificador de alto-falante Ecapa-TDNN.
⚡ 2022.08.25: Libere o exemplo TTS Finetune.
2022.08.22: Adicionar modelos Ernie-SAT: Ernie-Sat-VCTK, Ernie-Sat-Aishell3, Ernie-Sat-Zh_en.
2022.08.15: Adicione G2PW no front -end de texto chinês TTS.
2022.08.09: Libere o inglês chinês TTS misto.
⚡ 2022.08.03: Add OnNxRuntime Infer para TTS CLI.
? 2022.07.18: Liberação Vits: Vits-CSMSC, VITS-AISHELL3, VITS-VC.
? 2022.06.22: Todos os modelos TTS suportam o formato ONNX.
? 2022.06.17: Adicione a demonstração da Web Paddlespeech.
? 2022.05.13: libere pp-asr, pp-tts, pp-vpr.
? 2022.05.06: PaddleSpeech Streaming Server está disponível para Streaming ASR com Punctuation Restoration e Token Timestamp e hora Text-to-Speech .
? 2022.05.06: PaddleSpeech Server está disponível para Audio Classification , Automatic Speech Recognition e Text-to-Speech , Speaker Verification e Punctuation Restoration .
? 2022.03.28: PaddleSpeech CLI está disponível para Speaker Verification .
? 2021.12.10: PaddleSpeech CLI está disponível para Audio Classification , Automatic Speech Recognition , Speech Translation (English to Chinese) e Text-to-Speech .

Comunidade

Digitalize o código QR abaixo com o seu WeChat, você pode acessar o Grupo Oficial de Exchanização Técnica e obter o bônus (mais de 20 GB de materiais de aprendizagem, como papéis, códigos e vídeos) e o link ao vivo das lições. Esperamos sua participação.

Instalação

Recomendamos fortemente que nossos usuários instalem Paddlespeech no Linux com Python> = 3.8 e Paddlepaddle <= 2.5.1 . Algumas novas versões do Paddle não têm suporte para adaptação no Paddlespeech; portanto, atualmente apenas as versões 2.5.1 e anterior podem ser suportadas.

Introdução de dependência

GCC> = 4.8.5
paddlepaddle <= 2.5.1
Python> = 3.8
Suporte ao sistema operacional: Linux (Recomenda), Windows, Mac OSX

Paddlespeech depende do paddlepaddle. Para instalação, consulte o site oficial do PaddlePaddle e escolha de acordo com sua própria máquina. Aqui está um exemplo da versão da CPU.

pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple

Você também pode especificar a versão do Paddlepaddle ou instalar a versão desenvolver.

 # install 2.4.1 version. Note, 2.4.1 is just an example, please follow the minimum dependency of paddlepaddle for your selection
pip install paddlepaddle==2.4.1 -i https://mirror.baidu.com/pypi/simple
# install develop version
pip install paddlepaddle==0.0.0 -f https://www.paddlepaddle.org.cn/whl/linux/cpu-mkl/develop.html

Existem dois métodos de instalação rápida para o Paddlespeech, um é a instalação do PIP e o outro é a compilação do código -fonte (recomendado).

Instalação PIP

pip install pytest-runner
pip install paddlespeech

compilação do código -fonte

git clone https://github.com/PaddlePaddle/PaddleSpeech.git
cd PaddleSpeech
pip install pytest-runner
pip install .

Para mais problemas de instalação, como o ambiente do CONDA, dependente do Librosa, problemas do GCC, instalação do kaldi etc., você pode consultar este documento de instalação. Se você encontrar problemas durante a instalação, poderá deixar uma mensagem no #2150 e encontrar problemas relacionados

Início rápido

Os desenvolvedores podem experimentar nossos modelos com linha de comando Paddlespeech ou Python. Altere --input para testar seu próprio áudio/texto e suportar áudio do formato WAV 16K.

Você também pode experimentá -lo rapidamente no estúdio de IA? Paddlespeech API Demo

Teste de amostra de áudio download

wget -c https://paddlespeech.bj.bcebos.com/PaddleAudio/zh.wav
wget -c https://paddlespeech.bj.bcebos.com/PaddleAudio/en.wav

Reconhecimento automático de fala

（Clique para expandir o reconhecimento de fala de código aberto

Experiência na linha de comando

paddlespeech asr --lang zh --input zh.wav

Experiência da API do Python

 > >> from paddlespeech . cli . asr . infer import ASRExecutor
> >> asr = ASRExecutor ()
> >> result = asr ( audio_file = "zh.wav" )
> >> print ( result )
我认为跑步最重要的就是给我带来了身体健康

Texto para fala

Síntese de fala de código aberto

Saída 24K Taxa de amostragem WAV Format Audio

Experiência na linha de comando

paddlespeech tts --input "你好，欢迎使用百度飞桨深度学习框架！ " --output output.wav

Experiência da API do Python

 > >> from paddlespeech . cli . tts . infer import TTSExecutor
> >> tts = TTSExecutor ()
> >> tts ( text = "今天天气十分不错。" , output = "output.wav" )

Você pode experimentar em espaços huggingface tts demonstração

Classificação de áudio

Uma ferramenta de classificação de som de domínio aberto

Modelo de classificação de som baseado em 527 categorias de conjunto de dados de áudios.

Experiência na linha de comando

paddlespeech cls --input zh.wav

Experiência da API do Python

 > >> from paddlespeech . cli . cls . infer import CLSExecutor
> >> cls = CLSExecutor ()
> >> result = cls ( audio_file = "zh.wav" )
> >> print ( result )
Speech 0.9027186632156372

Extração de impressão de voz

Ferramenta de extração de impressão de voz de grau industrial

Experiência na linha de comando

paddlespeech vector --task spk --input zh.wav

Experiência da API do Python

 > >> from paddlespeech . cli . vector import VectorExecutor
> >> vec = VectorExecutor ()
> >> result = vec ( audio_file = "zh.wav" )
> >> print ( result ) # 187维向量
[ - 0.19083306   9.474295   - 14.122263    - 2.0916545    0.04848729
   4.9295826    1.4780062    0.3733844   10.695862     3.2697146
  - 4.48199     - 0.6617882   - 9.170393   - 11.1568775   - 1.2358263 ...]

Restauração de pontuação

Recuperação rápida da pontuação de texto, trabalha com modelos ASR

Experiência na linha de comando

paddlespeech text --task punc --input 今天的天气真不错啊你下午有空吗我想约你一起去吃饭

Experiência da API do Python

 > >> from paddlespeech . cli . text . infer import TextExecutor
> >> text_punc = TextExecutor ()
> >> result = text_punc ( text = "今天的天气真不错啊你下午有空吗我想约你一起去吃饭" )
今天的天气真不错啊！你下午有空吗？我想约你一起去吃饭。

Tradução de fala

Ferramenta de tradução de fala em inglês de ponta a ponta para chinês

Use ferramentas relacionadas a kaldi pré-compiladas, apenas suporte de suporte no sistema Ubuntu

Experiência na linha de comando

paddlespeech st --input en.wav

Experiência da API do Python

 > >> from paddlespeech . cli . st . infer import STExecutor
> >> st = STExecutor ()
> >> result = st ( audio_file = "en.wav" )
[ '我 在 这栋 建筑 的 古老 门上 敲门 。' ]

Servidor de início rápido

Os desenvolvedores podem experimentar o nosso servidor de fala com a linha de comando do servidor Paddlespeech.

Você pode experimentá -lo rapidamente no estúdio de IA (recomendar): SpeechServer

Start Server

paddlespeech_server start --config_file ./demos/speech_server/conf/application.yaml

Acesse serviços de reconhecimento de fala

paddlespeech_client asr --server_ip 127.0.0.1 --port 8090 --input input_16k.wav

Acesse texto para serviços de fala

paddlespeech_client tts --server_ip 127.0.0.1 --port 8090 --input "您好，欢迎使用百度飞桨语音合成服务。 " --output output.wav

Acesse serviços de classificação de áudio

paddlespeech_client cls --server_ip 127.0.0.1 --port 8090 --input input.wav

Para mais informações sobre as linhas de comando do servidor, consulte: Demonsibras do servidor de fala

Servidor de streaming de início rápido

Os desenvolvedores podem experimentar o streaming ASR e o streaming de servidor TTS.

Inicie o servidor de reconhecimento de fala de streaming

 paddlespeech_server start --config_file ./demos/streaming_asr_server/conf/application.yaml

Acesso Serviços de Reconhecimento de Speeching

 paddlespeech_client asr_online --server_ip 127.0.0.1 --port 8090 --input input_16k.wav

Comece a transmitir texto para o servidor de fala

 paddlespeech_server start --config_file ./demos/streaming_tts_server/conf/tts_online_application.yaml

Acesse o texto de streaming de serviços de fala

 paddlespeech_client tts_online --server_ip 127.0.0.1 --port 8092 --protocol http --input "您好，欢迎使用百度飞桨语音合成服务。" --output output.wav

Para mais informações, consulte: Streaming ASR e Streaming TTS

Lista de modelos

Paddlespeech suporta uma série dos modelos mais populares. Eles estão resumidos em modelos lançados e anexados com modelos pré -traidos disponíveis.

A fala a texto contém modelo acústico , modelo de linguagem e tradução de fala , com os seguintes detalhes:

Tipo de módulo de fala para texto	Conjunto de dados	Tipo de modelo	Exemplo
Recoginação de fala	Aishell	DeepSpeech2 RNN + Modelos baseados em Conv	DEEPPPEECH2-AISHELL
	Aishell	Modelos de atenção baseados em transformadores	U2.Transformer.Conformer-Aishell
	Librispeech	Modelos de atenção baseados em transformadores	deepppeech2-librispirech/transformador.conformer.u2-librispirech/transformador.conformer.u2-kaldi-librispirech
	Timit	Streaming unificado e de dois passos não transmitidos	u2-timit
Alinhamento	THCHS30	MFA	MFA-THCHS30
Modelo de idioma	Modelo de idioma ngram		Kenlm
Tradução de fala (inglês para chinês)	Ted En-Zh	Transformador + asr mtl	TODADO DE TRANSFORMADOR
Tradução de fala (inglês para chinês)	Ted En-Zh	FAT + transformador + ASR MTL	FAT-TOD

O texto em fala em Paddlespeech contém principalmente três módulos: Frontend de texto , modelo acústico e vocoder . Modelos acústicos e modelos de vocoder estão listados da seguinte forma:

Tipo de módulo de texto em fala	Tipo de modelo	Conjunto de dados	Exemplo
Frontend de texto			TN/G2P
Modelo acústico	Tacotron2	LJSPEECH/CSMSC	tacotron2-ljspeech/tacotron2-csmsc
	Transformador TTS	LJSpeech	Transformer-ljspeech
	Speedyspeech	CSMSC	SpeedySpeech-CSMSC
	FastSpeech2	LJSPEECH / VCTK / CSMSC / AISHELL-3 / ZH_EN / FELUNE	FASTSPEECH2-LJSPEECH/FASTSPEECH2-VCTK/FASTSPEECH2-CSMSC/FASTSPEECH2-AISHELL3/FASTSPEECH2-ZH_EN/FASTSPEECH2-FINENETUNE
	Ernie-Sat	Vctk / aishell-3 / zh_en	Ernie-Sat-VCTK / Ernie-Sat-Aishell3 / Ernie-Sat-Zh_en
	DiffSinger	OpenCpop	DIFFSINGER-OPENCPOP
Vocoder	Fluxo de onda	LJSpeech	Waveflow-LJSpeech
	Gangan de onda paralelo	LJSPEECH / VCTK / CSMSC / AISHELL-3 / OPENCPOP	PWGAN-LJSPEECH / PWGAN-VCTK / PWGAN-CSMSC / PWGAN-AISHELL3 / PWGAN-Opencpop
	Multi Band Melgan	CSMSC	Multi Band Melgan-CSMSC
	Estilo Melgan	CSMSC	Estilo Melgan-CSMSC
	Hifigan	LJSPEECH / VCTK / CSMSC / AISHELL-3 / OPENCPOP	Hifigan-ljspeech / hifigan-vctk / hifigan-csmsc / hifigan-aishell3 / hifigan-opencpop
	Wavernn	CSMSC	Wavernn-csmsc
Clonagem de voz	GE2E	Librispeech, etc.	GE2E
	Sv2TTS (GE2E + TACOTRON2)	Aishell-3	VC0
	Sv2tts (ge2e + fastspeech2)	Aishell-3	VC1
	Sv2tts (ecapa-tdnn + fastSpeech2)	Aishell-3	VC2
	GE2E + VITS	Aishell-3	Vits-vc
Ponta a ponta	Vits	CSMSC / AISHELL-3	VITS-CSMSC/VITS-AISHELL3

Classificação de áudio

Tarefa	Conjunto de dados	Tipo de modelo	Exemplo
Classificação de áudio	ESC-50	Pann	pann-oc50

Spoting de palavras -chave

Tarefa	Conjunto de dados	Tipo de modelo	Exemplo
Spoting de palavras -chave	Ei-snips	Mdtc	MDTC-HEY-SNIPS

Verificação do alto -falante

Tarefa	Conjunto de dados	Tipo de modelo	Exemplo
Verificação do alto -falante	VOXCELEB1/2	Ecapa-tdnn	Ecapa-tdnn-voxceleB12

Diarização do alto -falante

Tarefa	Conjunto de dados	Tipo de modelo	Exemplo
Diarização do alto -falante	Ami	Ecapa-tdnn + AHC / SC	Ecapa-tdnn-ami

Restauração de pontuação

Tarefa	Conjunto de dados	Tipo de modelo	Exemplo
Restauração de pontuação	IWLST2012_ZH	Ernie linear	IWSLT2012-PUNCH0

Documentos

Normalmente, o Speech SOTA, o Audio Sota e o SOTA da música oferecem uma visão geral dos tópicos acadêmicos quentes na área relacionada. Para se concentrar nas tarefas no Paddlespeech, você descobrirá que as diretrizes a seguir são úteis para antecipar as idéias principais.

Instalação
Início rápido
Algumas demos
Tutoriais
- Reconhecimento automático de fala
  - Introdução
  - Preparação de dados
  - Ngram LM
- Texto para fala
  - Introdução
  - Uso avançado
  - Frontend de texto baseado em regras chinesas
  - Teste amostras de áudio
- Verificação do alto -falante
  - Pesquisa de áudio
  - Verificação do alto -falante
- Classificação de áudio
- Tradução de fala
- Servidor de fala
Modelos liberados
- Fala para texto
- Texto para fala
- Classificação de áudio
- Verificação do alto -falante
- Diarização do alto -falante
- Restauração de pontuação
Comunidade
Bem -vindo a contribuir
Licença

O módulo de texto em fala é originalmente chamado de periquito e agora se fundido com este repositório. Se você estiver interessado em pesquisas acadêmicas sobre essa tarefa, consulte a visão geral da TTS Research. Além disso, este documento é uma boa diretriz para os componentes do pipeline.

Exemplos

PaddleBobo: Use Paddlespeech TTS para gerar voz humana virtual.

Vídeo de demonstração de Paddlespeech
VTuberTalk: Use Paddlespeech TTS e ASR para clonar a voz dos vídeos.

Citação

Para citar Paddlespeech para pesquisa, use o seguinte formato.

 @inproceedings{zhang2022paddlespeech,
    title = {PaddleSpeech: An Easy-to-Use All-in-One Speech Toolkit},
    author = {Hui Zhang, Tian Yuan, Junkun Chen, Xintong Li, Renjie Zheng, Yuxin Huang, Xiaojie Chen, Enlei Gong, Zeyu Chen, Xiaoguang Hu, dianhai yu, Yanjun Ma, Liang Huang},
    booktitle = {Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies: Demonstrations},
    year = {2022},
    publisher = {Association for Computational Linguistics},
}

@InProceedings{pmlr-v162-bai22d,
  title = {{A}$^3${T}: Alignment-Aware Acoustic and Text Pretraining for Speech Synthesis and Editing},
  author = {Bai, He and Zheng, Renjie and Chen, Junkun and Ma, Mingbo and Li, Xintong and Huang, Liang},
  booktitle = {Proceedings of the 39th International Conference on Machine Learning},
  pages = {1399--1411},
  year = {2022},
  volume = {162},
  series = {Proceedings of Machine Learning Research},
  month = {17--23 Jul},
  publisher = {PMLR},
  pdf = {https://proceedings.mlr.press/v162/bai22d/bai22d.pdf},
  url = {https://proceedings.mlr.press/v162/bai22d.html},
}

@inproceedings{zheng2021fused,
  title={Fused acoustic and text encoding for multimodal bilingual pretraining and speech translation},
  author={Zheng, Renjie and Chen, Junkun and Ma, Mingbo and Huang, Liang},
  booktitle={International Conference on Machine Learning},
  pages={12736--12746},
  year={2021},
  organization={PMLR}
}

Contribua para Paddlespeech

Você é calorosamente bem -vindo a enviar perguntas em discussões e relatórios de bugs em questões! Além disso, apreciamos muito se você estiver disposto a contribuir com este projeto!

Colaboradores

Reconhecimento

Muito obrigado ao Highcwu por adicionar exemplos Vits-Aishell3 e VITS-VC.
Muito obrigado a David-95 por corrigir o bug de várias pontuações, contribuindo para vários programas e dados e adicionando SSML para o front-end de texto chinês TTS.
Muito obrigado a Barrykcl por melhorar o Frontend do TTS Chises com base no G2PW.
Muito obrigado a YeyUpiaoling/PPASR/Paddlepaddle-DeePSpeech/VoicePrintRecognition-Paddlepaddle/Audioclassification-Paddlepaddle por anos de atenção, aconselhamento construtivo e grande ajuda.
Muito obrigado ao MyMagicPower pela implementação Java do ASR em arquivos de áudio curtos e longos.
Muito obrigado a Jiehangxie/PaddleBobo por desenvolver o uploader virtual (VUP)/Virtual YouTuber (vtuber) com a função TTS Paddlespeech.
Muito obrigado a 745165806/paddlespeechTask por contribuir com o modelo de restauração de pontuação.
Muito obrigado à KSLZ pelos documentos chineses suplementares.
Muito obrigado ao AWMMMM por contribuir com o FastSpeech2 Aishell3 Modelo pré -terenciado.
Muito obrigado ao PHECDA-XU/PADDLEDUBBING pelo desenvolvimento de uma ferramenta de dublagem com GUI baseada no modelo TTS Paddlespeech.
Muito obrigado ao Jerryuho/VtuberTalk por desenvolver uma ferramenta GUI baseada no Paddlespeech TTS e Code para fabricar conjuntos de dados a partir de vídeos com base no Paddlespeech ASR.
Muito obrigado ao VPEGASUS/XUESEBOT por desenvolver um Rasa Chatbot, que pode falar e ouvir graças ao Paddlespeech.
Muito obrigado a Chenkui164/fastasr pela implementação de inferência C ++ do Paddlespeech ASR.
Muito obrigado ao Heyudage/VoiceTyPing pela implementação da ferramenta de digitação de voz em tempo real dos serviços de streaming ASR de Paddlespeech.
Muito obrigado à instalação do Escaticzheng/Ps3.9-Wheel para a roda do Python3.9 para a instalação do Paddlespeech no Windows sem o Viusal Studio. Além disso, o Paddlespeech depende de muitos repositórios de código aberto. Veja referências para obter mais informações.
Muito obrigado ao Chinobing/FASTAPI-PADDLESPEECH-AUDIO-TEXT para converter áudio em texto com base em FASTAPI e PADDLESPEECH.
Muito obrigado a Mateo/Pallas-Bot pelo QQ Bot com base no Paddlespeech TTS.