(단순화 된 중국어 | 영어)

PaddlesPeech 는 PaddlePaddle 플랫폼의 오픈 소스 툴킷으로, 최첨단 및 영향력있는 모델과 함께 음성 및 오디오의 다양한 중요한 작업을 수행합니다.
Paddlespeech는 NAACL2022 Best Demo Award를 수상했습니다. Arxiv에 대한 논문을 확인하십시오.
| 입력 오디오 | 인식 결과 |
|---|---|
![]() | 나는 건물의 고대 쪽 문을 두드렸다. |
![]() | 달리기의 가장 중요한 것은 건강을 유지하는 것입니다. |
| 입력 오디오 | 번역 결과 |
|---|---|
![]() | 나는이 건물의 고대 문을 두드렸다. |
| 입력 텍스트 | 합성 오디오 |
|---|---|
| 인생은 초콜릿 상자와 같았습니다. 당신은 당신이 무엇을 얻을지 결코 알지 못합니다. | ![]() |
| 좋은 아침, 오늘은 2020/10/29이며 최소 온도는 -3 ° C입니다. | ![]() |
| 지지지 (Ji Ji Ji), 닭을 모으는 닭과 닭은 가시 닭입니다. 가시 치킨은 배가 고프다. Ji Ji와 Ji Ji는 닭을 도와줍니다. 닭이 혼합되면 Ji Ji가 합류합니다. Ji Ji는 닭고기를 때리기가 매우 빠르고 닭고기는 시급하며 도적이 시급하고 Ji Ji는 불안하고 닭고기를 때린다. Ji Ji는 닭고기를 빨리 맞았습니다. 닭고기가 죽었을 때, Ji Ji는 흥분되어 "Ji Ji가 닭을 두드리는 것"을 씁니다. | ![]() |
| 안녕하세요 여러분, 저는 Parrot의 가상 교사입니다. 시를 읽자. 나와 봄 바람이지나갑니다. 당신은 가을 물을 가져가 은하계를 가져갑니다. | ![]() |
| IKEA는 당신이 이야기 할 필요는 없지만, 당신이 말하는 것은 프레젠테이션과 고백이 될 것입니다. | ![]() |
| 각 국가에는 자체 국가가 있습니다 | ![]() |
더 합성 된 오디오는 Paddlespeech 텍스트 음성 샘플을 참조하십시오.
| 입력 텍스트 | 출력 텍스트 |
|---|---|
| 오늘 날씨는 정말 좋습니다. 오후에 시간이 있습니까? 함께 저녁을 보내달라고 부탁하고 싶습니다 | 오늘 날씨는 정말 좋습니다! 오후에 무료입니까? 함께 식사를하도록 요청하고 싶습니다. |
사용하기 쉬운 효율적이고 유연하며 확장 가능한 구현을 통해 우리의 비전은 교육, 추론 및 테스트 모듈, 배포 프로세스를 포함한 산업 응용 프로그램 및 학업 연구를 강화하는 것입니다. 보다 구체적으로 말하면이 툴킷은 다음과 같습니다.
PaddleSpeech Streaming Server Punctuation Restoration 및 Token Timestamp 및 Text-to-Speech 으로 Streaming ASR 데 사용할 수 있습니다.PaddleSpeech Server 는 Audio Classification , Automatic Speech Recognition 및 Text-to-Speech 연설, Speaker Verification 및 Punctuation Restoration 사용할 수 있습니다.Speaker Verification 위해 PaddleSpeech CLI 사용할 수 있습니다.PaddleSpeech CLI Audio Classification Automatic Speech Recognition Speech Translation (English to Chinese) Text-to-Speech
Python> = 3.8 및 PaddlePaddle <= 2.5.1을 사용하여 Linux 에 PaddlesPeech를 설치하는 것이 사용자에게 강력히 권장됩니다. 일부 새로운 버전의 패들은 패들링 스피치에서 적응을 지원하지 않으므로 현재 버전 2.5.1 이상 만 지원할 수 있습니다.
패들 레스피는 패들 라디에 의존합니다. 설치하려면 PaddlePaddle의 공식 웹 사이트를 참조하고 자신의 기계에 따라 선택하십시오. 다음은 CPU 버전의 예입니다.
pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple또한 PaddlePaddle의 버전을 지정하거나 개발 버전을 설치할 수도 있습니다.
# install 2.4.1 version. Note, 2.4.1 is just an example, please follow the minimum dependency of paddlepaddle for your selection
pip install paddlepaddle==2.4.1 -i https://mirror.baidu.com/pypi/simple
# install develop version
pip install paddlepaddle==0.0.0 -f https://www.paddlepaddle.org.cn/whl/linux/cpu-mkl/develop.htmlPaddlesPeech에는 두 가지 빠른 설치 방법이 있으며, 하나는 PIP 설치이고 다른 하나는 소스 코드 컴파일 (권장)입니다.
pip install pytest-runner
pip install paddlespeechgit clone https://github.com/PaddlePaddle/PaddleSpeech.git
cd PaddleSpeech
pip install pytest-runner
pip install .Conda 환경, Librosa 의존적, GCC 문제, Kaldi 설치 등과 같은 더 많은 설치 문제를 보려면이 설치 문서를 참조하십시오. 설치 중에 문제가 발생하면 #2150에 메시지를 남기고 관련 문제를 찾을 수 있습니다.
개발자는 패들링 스피치 명령 줄 또는 파이썬으로 모델을 시도 할 수 있습니다. 변경 --input 자신의 오디오/텍스트를 테스트하고 16K WAV 형식 오디오를 지원합니다.
AI 스튜디오에서 빠르게 경험할 수 있습니까? Paddlespeech API 데모
오디오 샘플 다운로드 테스트
wget -c https://paddlespeech.bj.bcebos.com/PaddleAudio/zh.wav
wget -c https://paddlespeech.bj.bcebos.com/PaddleAudio/en.wav명령 줄 경험
paddlespeech asr --lang zh --input zh.wavPython API 경험
> >> from paddlespeech . cli . asr . infer import ASRExecutor
> >> asr = ASRExecutor ()
> >> result = asr ( audio_file = "zh.wav" )
> >> print ( result )
我认为跑步最重要的就是给我带来了身体健康출력 24K 샘플 속도 WAV 형식 오디오
명령 줄 경험
paddlespeech tts --input "你好,欢迎使用百度飞桨深度学习框架! " --output output.wavPython API 경험
> >> from paddlespeech . cli . tts . infer import TTSExecutor
> >> tts = TTSExecutor ()
> >> tts ( text = "今天天气十分不错。" , output = "output.wav" )527 개의 오디오 세트 데이터 세트를 기반으로 한 사운드 분류 모델
명령 줄 경험
paddlespeech cls --input zh.wavPython API 경험
> >> from paddlespeech . cli . cls . infer import CLSExecutor
> >> cls = CLSExecutor ()
> >> result = cls ( audio_file = "zh.wav" )
> >> print ( result )
Speech 0.9027186632156372명령 줄 경험
paddlespeech vector --task spk --input zh.wavPython API 경험
> >> from paddlespeech . cli . vector import VectorExecutor
> >> vec = VectorExecutor ()
> >> result = vec ( audio_file = "zh.wav" )
> >> print ( result ) # 187维向量
[ - 0.19083306 9.474295 - 14.122263 - 2.0916545 0.04848729
4.9295826 1.4780062 0.3733844 10.695862 3.2697146
- 4.48199 - 0.6617882 - 9.170393 - 11.1568775 - 1.2358263 ...]명령 줄 경험
paddlespeech text --task punc --input 今天的天气真不错啊你下午有空吗我想约你一起去吃饭Python API 경험
> >> from paddlespeech . cli . text . infer import TextExecutor
> >> text_punc = TextExecutor ()
> >> result = text_punc ( text = "今天的天气真不错啊你下午有空吗我想约你一起去吃饭" )
今天的天气真不错啊!你下午有空吗?我想约你一起去吃饭。사전 컴파일 된 Kaldi 관련 도구를 사용하고 Ubuntu 시스템에서만 지원합니다.
명령 줄 경험
paddlespeech st --input en.wavPython API 경험
> >> from paddlespeech . cli . st . infer import STExecutor
> >> st = STExecutor ()
> >> result = st ( audio_file = "en.wav" )
[ '我 在 这栋 建筑 的 古老 门上 敲门 。' ]개발자는 PaddlesPeech 서버 명령 줄을 사용하여 음성 서버를 시도 할 수 있습니다.
AI Studio (추천) : SpeechServer에서 빠르게 시도 할 수 있습니다.
서버를 시작하십시오
paddlespeech_server start --config_file ./demos/speech_server/conf/application.yaml액세스 음성 인식 서비스
paddlespeech_client asr --server_ip 127.0.0.1 --port 8090 --input input_16k.wav음성 서비스에 대한 텍스트에 액세스하십시오
paddlespeech_client tts --server_ip 127.0.0.1 --port 8090 --input "您好,欢迎使用百度飞桨语音合成服务。 " --output output.wav오디오 분류 서비스에 액세스하십시오
paddlespeech_client cls --server_ip 127.0.0.1 --port 8090 --input input.wav서버 명령 줄에 대한 자세한 내용은 Speech Server Demos를 참조하십시오.
개발자는 ASR 스트리밍 및 TTS 서버 스트리밍을 시도 할 수 있습니다.
스피치 인식 서버 스트리밍을 시작하십시오
paddlespeech_server start --config_file ./demos/streaming_asr_server/conf/application.yaml
스트리밍 스피치 인식 서비스에 액세스하십시오
paddlespeech_client asr_online --server_ip 127.0.0.1 --port 8090 --input input_16k.wav
스피치 서버로 텍스트 스트리밍을 시작하십시오
paddlespeech_server start --config_file ./demos/streaming_tts_server/conf/tts_online_application.yaml
연설 서비스에 스트리밍 텍스트에 액세스하십시오
paddlespeech_client tts_online --server_ip 127.0.0.1 --port 8092 --protocol http --input "您好,欢迎使用百度飞桨语音合成服务。" --output output.wav
자세한 내용은 스트리밍 ASR 및 스트리밍 TTS를 참조하십시오.
PaddlesPeech는 일련의 가장 인기있는 모델을 지원합니다. 그들은 릴리스 된 모델로 요약되어 있으며 사용 가능한 사전 모델과 함께 첨부됩니다.
Speech-to-Text 에는 음향 모델 , 언어 모델 및 음성 번역이 포함되어 있으며 다음과 같은 세부 사항이 포함됩니다.
| 음성-텍스트 모듈 유형 | 데이터 세트 | 모델 유형 | 예 |
|---|---|---|---|
| 연설 인식 | Aishell | DeepSpeech2 RNN + CONV 기반 모델 | DeepPeech2-Aishell |
| 변압기 기반주의 모델 | u2.transformer.comerformer-aishell | ||
| librispeech | 변압기 기반주의 모델 | DeepPeech2-librispirech/transformer.comformer.u2-librispirech/transformer.comformer.u2-Kaldi-Librispirech | |
| 소심한 | 통합 스트리밍 및 비 스트리밍 2 패스 | U2- 타임 | |
| 조정 | THCHS30 | MFA | MFA-THCHS30 |
| 언어 모델 | NGRAM 언어 모델 | Kenlm | |
| 언어 번역 (영어로 중국어) | 테드 en-zh | 변압기 + ASR MTL | 변압기 |
| 지방 + 변압기 + ASR MTL | 뚱뚱한-정식 | ||
PaddlesPeech의 텍스트 음성은 주로 텍스트 프론트 엔드 , 음향 모델 및 보코더의 세 가지 모듈을 포함합니다. 음향 모델 및 보코더 모델은 다음과 같이 나열됩니다.
| 텍스트 음성 변환 모듈 유형 | 모델 유형 | 데이터 세트 | 예 |
|---|---|---|---|
| 텍스트 프론트 엔드 | TN/G2P | ||
| 음향 모델 | 타코 트론 2 | ljspeech/csmsc | 타코 트론 2-Ljspeech/타코 트론 2-CSMSC |
| 변압기 TTS | ljspeech | 변압기 ljspeech | |
| speedyspeech | CSMSC | speedyspeech-csmsc | |
| FastSpeech2 | ljspeech / vctk / csmsc / aishell-3 / zh_en / fineune | FastSpeech2-ljspeech/fastspeech2-vctk/fastspeech2-csmsc/fastspeech2-aishell3/fastspeech2-zh_en/fastspeech2-finenetune | |
| 어니 시트 | vctk / aishell-3 / zh_en | Ernie-Sat-vctk / Ernie-Sat-Aishell3 / Ernie-Sat-Zh_en | |
| Diffsinger | Opencpop | diffsinger-opencpop | |
| 보코더 | 웨이브 플로우 | ljspeech | WaveFlow-ljspeech |
| 평행 파간 | ljspeech / vctk / csmsc / aishell-3 / opencpop | pwgan-ljspeech / pwgan-vctk / pwgan-csmsc / pwgan-aishell3 / pwgan-opencpop | |
| 멀티 밴드 멜간 | CSMSC | 멀티 밴드 melgan-csmsc | |
| 스타일 멜간 | CSMSC | 스타일 melgan-csmsc | |
| Hifigan | ljspeech / vctk / csmsc / aishell-3 / opencpop | Hifigan-ljspeech / hifigan-vctk / hifigan-csmsc / hifigan-aishell3 / hifigan-opencpop | |
| Wavernn | CSMSC | Wavernn-CSMSC | |
| 음성 복제 | GE2E | librispeech 등 | GE2E |
| SV2TTS (GE2E + Tacotron2) | Aishell-3 | VC0 | |
| SV2TTS (GE2E + FastSpeech2) | Aishell-3 | VC1 | |
| SV2TTS (ECAPA-TDNN + FASTSPEECH2) | Aishell-3 | VC2 | |
| GE2E + VITS | Aishell-3 | VITS-VC | |
| 엔드 투 엔드 | vits | CSMSC / AISHELL-3 | VITS-CSMSC/VITS-AISHELL3 |
오디오 분류
| 일 | 데이터 세트 | 모델 유형 | 예 |
|---|---|---|---|
| 오디오 분류 | ESC-50 | 팬 | Pann-Esc50 |
키워드 발견
| 일 | 데이터 세트 | 모델 유형 | 예 |
|---|---|---|---|
| 키워드 발견 | Hey-snips | MDTC | mdtc-hey-snips |
스피커 확인
| 일 | 데이터 세트 | 모델 유형 | 예 |
|---|---|---|---|
| 스피커 확인 | Voxceleb1/2 | ECAPA-TDNN | ECAPA-TDNN-VOXCELEB12 |
스피커 발기
| 일 | 데이터 세트 | 모델 유형 | 예 |
|---|---|---|---|
| 스피커 발기 | 아미 | ECAPA-TDNN + AHC / SC | ECAPA-TDNN-AMI |
구두점 복원
| 일 | 데이터 세트 | 모델 유형 | 예 |
|---|---|---|---|
| 구두점 복원 | IWLST2012_ZH | 어니 선형 | IWSLT2012-PUNCH0 |
일반적으로 Speech Sota, Audio Sota 및 Music Sota는 관련 분야의 뜨거운 학문 주제에 대한 개요를 제공합니다. PaddlesPeech의 작업에 집중하려면 다음 지침이 핵심 아이디어를 잡는 데 도움이됩니다.
텍스트 음성 변환 모듈은 원래 Parakeet이라고하며 이제는이 저장소와 병합됩니다. 이 과제에 대한 학업 연구에 관심이 있으시면 TTS 연구 개요를 참조하십시오. 또한이 문서는 파이프 라인 구성 요소에 대한 좋은 지침입니다.
Paddlespeech 데모 비디오
vtubertalk : 동영상에서 음성을 복제하기 위해 Paddlespeech tts 및 ASR을 사용하십시오.
연구를 위해 패들링 스피치를 인용하려면 다음 형식을 사용하십시오.
@inproceedings{zhang2022paddlespeech,
title = {PaddleSpeech: An Easy-to-Use All-in-One Speech Toolkit},
author = {Hui Zhang, Tian Yuan, Junkun Chen, Xintong Li, Renjie Zheng, Yuxin Huang, Xiaojie Chen, Enlei Gong, Zeyu Chen, Xiaoguang Hu, dianhai yu, Yanjun Ma, Liang Huang},
booktitle = {Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies: Demonstrations},
year = {2022},
publisher = {Association for Computational Linguistics},
}
@InProceedings{pmlr-v162-bai22d,
title = {{A}$^3${T}: Alignment-Aware Acoustic and Text Pretraining for Speech Synthesis and Editing},
author = {Bai, He and Zheng, Renjie and Chen, Junkun and Ma, Mingbo and Li, Xintong and Huang, Liang},
booktitle = {Proceedings of the 39th International Conference on Machine Learning},
pages = {1399--1411},
year = {2022},
volume = {162},
series = {Proceedings of Machine Learning Research},
month = {17--23 Jul},
publisher = {PMLR},
pdf = {https://proceedings.mlr.press/v162/bai22d/bai22d.pdf},
url = {https://proceedings.mlr.press/v162/bai22d.html},
}
@inproceedings{zheng2021fused,
title={Fused acoustic and text encoding for multimodal bilingual pretraining and speech translation},
author={Zheng, Renjie and Chen, Junkun and Ma, Mingbo and Huang, Liang},
booktitle={International Conference on Machine Learning},
pages={12736--12746},
year={2021},
organization={PMLR}
}
토론 및 버그 보고서에서 질문을 제출할 수 있습니다. 또한이 프로젝트에 기꺼이 기여할 기부한다면 감사합니다!
패들 레스피치는 Apache-2.0 라이센스에 따라 제공됩니다.