PaddleSpeech 다운로드 -PaddlesPeech 소스 PaddleSpeech 다운로드

PaddleSpeech

AI 소스 코드

PaddleSpeech r1.4.2

다운로드

(단순화 된 중국어 | 영어)

빠른 시작 | 문서 | 모델 목록 | Aistudio 코스 | NAACL2022 최고의 데모 상 종이 | Gitee

PaddlesPeech 는 PaddlePaddle 플랫폼의 오픈 소스 툴킷으로, 최첨단 및 영향력있는 모델과 함께 음성 및 오디오의 다양한 중요한 작업을 수행합니다.

Paddlespeech는 NAACL2022 Best Demo Award를 수상했습니다. Arxiv에 대한 논문을 확인하십시오.

음성 인식

입력 오디오	인식 결과
	나는 건물의 고대 쪽 문을 두드렸다.
	달리기의 가장 중요한 것은 건강을 유지하는 것입니다.

언어 번역 (영어로 중국어)

입력 오디오	번역 결과
	나는이 건물의 고대 문을 두드렸다.

텍스트 음성

입력 텍스트	합성 오디오
인생은 초콜릿 상자와 같았습니다. 당신은 당신이 무엇을 얻을지 결코 알지 못합니다.
좋은 아침, 오늘은 2020/10/29이며 최소 온도는 -3 ° C입니다.
지지지 (Ji Ji Ji), 닭을 모으는 닭과 닭은 가시 닭입니다. 가시 치킨은 배가 고프다. Ji Ji와 Ji Ji는 닭을 도와줍니다. 닭이 혼합되면 Ji Ji가 합류합니다. Ji Ji는 닭고기를 때리기가 매우 빠르고 닭고기는 시급하며 도적이 시급하고 Ji Ji는 불안하고 닭고기를 때린다. Ji Ji는 닭고기를 빨리 맞았습니다. 닭고기가 죽었을 때, Ji Ji는 흥분되어 "Ji Ji가 닭을 두드리는 것"을 씁니다.
안녕하세요 여러분, 저는 Parrot의 가상 교사입니다. 시를 읽자. 나와 봄 바람이지나갑니다. 당신은 가을 물을 가져가 은하계를 가져갑니다.
IKEA는 당신이 이야기 할 필요는 없지만, 당신이 말하는 것은 프레젠테이션과 고백이 될 것입니다.
각 국가에는 자체 국가가 있습니다

더 합성 된 오디오는 Paddlespeech 텍스트 음성 샘플을 참조하십시오.

구두점 복원

입력 텍스트	출력 텍스트
오늘 날씨는 정말 좋습니다. 오후에 시간이 있습니까? 함께 저녁을 보내달라고 부탁하고 싶습니다	오늘 날씨는 정말 좋습니다! 오후에 무료입니까? 함께 식사를하도록 요청하고 싶습니다.

특징

사용하기 쉬운 효율적이고 유연하며 확장 가능한 구현을 통해 우리의 비전은 교육, 추론 및 테스트 모듈, 배포 프로세스를 포함한 산업 응용 프로그램 및 학업 연구를 강화하는 것입니다. 보다 구체적으로 말하면이 툴킷은 다음과 같습니다.

? 사용 편의성 : 설치, CLI, 서버 및 스트리밍 서버의 낮은 장벽을 사용하여 여정을 빠르게 시작할 수 있습니다.
? 최첨단에 정렬 : 우리는 고속 및 초경량 모델과 최첨단 기술을 제공합니다.
? 스트리밍 ASR 및 TTS 시스템 : 우리는 생산 준비 스트리밍 ASR 및 스트리밍 TTS 시스템을 제공합니다.
? 규칙 기반 중국 프론트 엔드 : 우리의 프론트 엔드에는 텍스트 정규화 및 grapheme-to-phoneme (폴리폰 및 톤 샌드 디 포함 G2P)이 포함되어 있습니다. 또한, 우리는 자기 정의 언어 규칙을 사용하여 중국의 맥락을 조정합니다.
? 산업 및 학계 모두를 활성화시키는 다양한 기능 :
- ? ️ 중요한 오디오 작업의 구현 :이 툴킷은 자동 음성 인식, 텍스트 음성 연설 합성, 스피커 구두, 키워드 스팟 팅, 오디오 분류 및 음성 번역 등과 같은 오디오 기능이 포함되어 있습니다.
- ? 주류 모델 및 데이터 세트의 통합 : 툴킷은 음성 작업의 전체 파이프 라인에 참여하는 모듈을 구현하고 LibrisPeech, LJSpeech, Aishell, CSMSC 등과 같은 주류 데이터 세트를 사용합니다. 자세한 내용은 모델 목록도 참조하십시오.
- ? 계단식 모델 응용 프로그램 : 일반적인 기존 오디오 작업의 확장으로 소외된 작업의 워크 플로를 자연 언어 처리 (NLP) 및 컴퓨터 비전 (CV)과 같은 다른 분야와 결합합니다.

최근 업데이트

? 2023.
? 2023.05.18 : Aishell의 ASR에 대한 Squeezeformer, Squeezeformer 교육을 추가하십시오.
? 2023.05.04 : Librispeech에서 ASR에 대한 Hubert Asr-en, Hubert 미세 조정을 추가하십시오.
⚡ 2023.04.28 : Fix 0-D 텐서, PaddlePaddle == 2.5의 업그레이드로 0-D 텐서를 수정하는 문제가 해결되었습니다.
? 2023.04.25 : U2 컨 포머에 대한 AMP를 추가하십시오.
2023.04.06 : 자막 파일 추가 (.SRT 형식) 생성 예제.
2023.03.14 : Diffsinger, Pwgan 및 Hifigan을 포함한 OpenCPOP 데이터 세트를 사용하여 SVS (노래 음성 합성) 예제를 추가하면 효과가 지속적으로 최적화됩니다.
? 2023.03.09 : wav2vec2asr-en을 추가하십시오.
? 2023.03.07 : TTS ARM Linux C ++ 데모 추가 (C ++ 중국어 텍스트 전면 포함).
2023.03.03 음성 변환 Starganv2-VC 합성 파이프 라인 추가.
? 2023.02.16 : 광동어 TTS를 추가하십시오.
2023.01.10 : 코드 스위치 ASR CLI 및 데모 추가.
? 2023.01.06 : 코드 스위치 ASR TAL_CS 레시피 추가.
? 2022.12.02 : 엔드 투 엔드 프로디 예측 파이프 라인 추가 (음향 모델에서 프로디 레이블 사용 포함).
? 2022.11.30 : TTS Android 데모를 추가하십시오.
? 2022.11.28 : PP-TTS 및 PP-ASR 데모는 Aistudio 및 PaddlePaddle의 공식 웹 사이트에서 제공됩니다.
? 2022.11.18 : Whisper CLI 및 데모를 추가하고 다중 언어 인식 및 번역을 지원하십시오.
2022.11.18 : WAV2VEC2 CLI 및 데모를 추가하고 ASR을 지원하고 기능 추출을 추가하십시오.
? 2022.11.17 : tts에 남성 음성을 추가하십시오.
2022.11.07 : U2/U2 ++ C ++ 고성능 스트리밍 ASR 배포를 추가하십시오.
? 2022.11.01 : 중국 영어 혼합 tts의 적대 손실을 추가하십시오.
2022.10.26 : TTS에 대한 Prosody Prediction을 추가하십시오.
? 2022.10.21 : TTS 중국어 텍스트 전면에 SSML을 추가하십시오.
? 2022.10.11 : LibrisPeech에서 ASR에 대한 WAV2VEC2ASR-EN, WAV2VEC2.0 미세 조정을 추가하십시오.
2022.09.26 : Paddlespeech 웹 데모에 음성 복제, TTS Finetune 및 Ernie-Sat 추가.
⚡ 2022.09.09 : ECAPA-TDNN 스피커 인코더와 함께 Aishell-3 음성 클로닝 예제 추가.
⚡ 2022.08.25 : 릴리스 TTS Finetune 예제.
2022.08.22 : Ernie-Sat 모델 추가 : Ernie-Sat-Vctk, Ernie-Sat-Aishell3, Ernie-Sat-Zh_en.
2022.08.15 : G2PW를 TTS 중국어 텍스트 전면에 추가하십시오.
2022.08.09 : 중국어 영어 혼합 tts 릴리스.
⚡ 2022.08.03 : tts cli에 대해 onxruntime tect를 추가하십시오.
? 2022.07.18 : 릴리스 VITS : VITS-CSMSC, VITS-AISHELL3, VITS-VC.
? 2022.06.22 : 모든 TTS 모델은 ONNX 형식을 지원합니다.
? 2022.06.17 : 패들리스 스피치 웹 데모를 추가하십시오.
? 2022.05.13 : 릴리스 PP-ASR, PP-TTS, PP-VPR.
?? 2022.05.06 : PaddleSpeech Streaming Server Punctuation Restoration 및 Token Timestamp 및 Text-to-Speech 으로 Streaming ASR 데 사용할 수 있습니다.
?? 2022.05.06 : PaddleSpeech Server 는 Audio Classification , Automatic Speech Recognition 및 Text-to-Speech 연설, Speaker Verification 및 Punctuation Restoration 사용할 수 있습니다.
?? 2022.03.28 : Speaker Verification 위해 PaddleSpeech CLI 사용할 수 있습니다.
?? PaddleSpeech CLI Audio Classification Automatic Speech Recognition Speech Translation (English to Chinese) Text-to-Speech

지역 사회

아래의 QR 코드를 WeChat과 함께 스캔하면 공식 기술 교환 그룹에 액세스하고 보너스 (논문, 코드 및 비디오와 같은 20GB 이상의 학습 자료) 및 레슨의 라이브 링크를 얻을 수 있습니다. 귀하의 참여를 기대하십시오.

설치

Python> = 3.8 및 PaddlePaddle <= 2.5.1을 사용하여 Linux 에 PaddlesPeech를 설치하는 것이 사용자에게 강력히 권장됩니다. 일부 새로운 버전의 패들은 패들링 스피치에서 적응을 지원하지 않으므로 현재 버전 2.5.1 이상 만 지원할 수 있습니다.

의존성 소개

GCC> = 4.8.5
패들 라디 <= 2.5.1
파이썬> = 3.8
OS 지원 : Linux (권장), Windows, Mac OSX

패들 레스피는 패들 라디에 의존합니다. 설치하려면 PaddlePaddle의 공식 웹 사이트를 참조하고 자신의 기계에 따라 선택하십시오. 다음은 CPU 버전의 예입니다.

pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple

또한 PaddlePaddle의 버전을 지정하거나 개발 버전을 설치할 수도 있습니다.

 # install 2.4.1 version. Note, 2.4.1 is just an example, please follow the minimum dependency of paddlepaddle for your selection
pip install paddlepaddle==2.4.1 -i https://mirror.baidu.com/pypi/simple
# install develop version
pip install paddlepaddle==0.0.0 -f https://www.paddlepaddle.org.cn/whl/linux/cpu-mkl/develop.html

PaddlesPeech에는 두 가지 빠른 설치 방법이 있으며, 하나는 PIP 설치이고 다른 하나는 소스 코드 컴파일 (권장)입니다.

PIP 설치

pip install pytest-runner
pip install paddlespeech

소스 코드 컴파일

git clone https://github.com/PaddlePaddle/PaddleSpeech.git
cd PaddleSpeech
pip install pytest-runner
pip install .

Conda 환경, Librosa 의존적, GCC 문제, Kaldi 설치 등과 같은 더 많은 설치 문제를 보려면이 설치 문서를 참조하십시오. 설치 중에 문제가 발생하면 #2150에 메시지를 남기고 관련 문제를 찾을 수 있습니다.

빠른 시작

개발자는 패들링 스피치 명령 줄 또는 파이썬으로 모델을 시도 할 수 있습니다. 변경 --input 자신의 오디오/텍스트를 테스트하고 16K WAV 형식 오디오를 지원합니다.

AI 스튜디오에서 빠르게 경험할 수 있습니까? Paddlespeech API 데모

오디오 샘플 다운로드 테스트

wget -c https://paddlespeech.bj.bcebos.com/PaddleAudio/zh.wav
wget -c https://paddlespeech.bj.bcebos.com/PaddleAudio/en.wav

자동 음성 인식

(확장하려면 클릭) 오픈 소스 음성 인식

명령 줄 경험

paddlespeech asr --lang zh --input zh.wav

Python API 경험

 > >> from paddlespeech . cli . asr . infer import ASRExecutor
> >> asr = ASRExecutor ()
> >> result = asr ( audio_file = "zh.wav" )
> >> print ( result )
我认为跑步最重要的就是给我带来了身体健康

텍스트 음성

오픈 소스 음성 합성

출력 24K 샘플 속도 WAV 형식 오디오

명령 줄 경험

paddlespeech tts --input "你好，欢迎使用百度飞桨深度学习框架！ " --output output.wav

Python API 경험

 > >> from paddlespeech . cli . tts . infer import TTSExecutor
> >> tts = TTSExecutor ()
> >> tts ( text = "今天天气十分不错。" , output = "output.wav" )

포옹 페이스 공간 tts 데모를 경험할 수 있습니다

오디오 분류

오픈 도메인 사운드 분류 도구

527 개의 오디오 세트 데이터 세트를 기반으로 한 사운드 분류 모델

명령 줄 경험

paddlespeech cls --input zh.wav

Python API 경험

 > >> from paddlespeech . cli . cls . infer import CLSExecutor
> >> cls = CLSExecutor ()
> >> result = cls ( audio_file = "zh.wav" )
> >> print ( result )
Speech 0.9027186632156372

VoicePrint 추출

산업 등급의 VoicePrint 추출 도구

명령 줄 경험

paddlespeech vector --task spk --input zh.wav

Python API 경험

 > >> from paddlespeech . cli . vector import VectorExecutor
> >> vec = VectorExecutor ()
> >> result = vec ( audio_file = "zh.wav" )
> >> print ( result ) # 187维向量
[ - 0.19083306   9.474295   - 14.122263    - 2.0916545    0.04848729
   4.9295826    1.4780062    0.3733844   10.695862     3.2697146
  - 4.48199     - 0.6617882   - 9.170393   - 11.1568775   - 1.2358263 ...]

구두점 복원

텍스트 구두점의 빠른 복구는 ASR 모델과 함께 작동합니다

명령 줄 경험

paddlespeech text --task punc --input 今天的天气真不错啊你下午有空吗我想约你一起去吃饭

Python API 경험

 > >> from paddlespeech . cli . text . infer import TextExecutor
> >> text_punc = TextExecutor ()
> >> result = text_punc ( text = "今天的天气真不错啊你下午有空吗我想约你一起去吃饭" )
今天的天气真不错啊！你下午有空吗？我想约你一起去吃饭。

연설 번역

엔드 투 엔드 영어-중국어 음성 번역 도구

사전 컴파일 된 Kaldi 관련 도구를 사용하고 Ubuntu 시스템에서만 지원합니다.

명령 줄 경험

paddlespeech st --input en.wav

Python API 경험

 > >> from paddlespeech . cli . st . infer import STExecutor
> >> st = STExecutor ()
> >> result = st ( audio_file = "en.wav" )
[ '我 在 这栋 建筑 的 古老 门上 敲门 。' ]

빠른 시작 서버

개발자는 PaddlesPeech 서버 명령 줄을 사용하여 음성 서버를 시도 할 수 있습니다.

AI Studio (추천) : SpeechServer에서 빠르게 시도 할 수 있습니다.

서버를 시작하십시오

paddlespeech_server start --config_file ./demos/speech_server/conf/application.yaml

액세스 음성 인식 서비스

paddlespeech_client asr --server_ip 127.0.0.1 --port 8090 --input input_16k.wav

음성 서비스에 대한 텍스트에 액세스하십시오

paddlespeech_client tts --server_ip 127.0.0.1 --port 8090 --input "您好，欢迎使用百度飞桨语音合成服务。 " --output output.wav

오디오 분류 서비스에 액세스하십시오

paddlespeech_client cls --server_ip 127.0.0.1 --port 8090 --input input.wav

서버 명령 줄에 대한 자세한 내용은 Speech Server Demos를 참조하십시오.

빠른 시작 스트리밍 서버

개발자는 ASR 스트리밍 및 TTS 서버 스트리밍을 시도 할 수 있습니다.

스피치 인식 서버 스트리밍을 시작하십시오

 paddlespeech_server start --config_file ./demos/streaming_asr_server/conf/application.yaml

스트리밍 스피치 인식 서비스에 액세스하십시오

 paddlespeech_client asr_online --server_ip 127.0.0.1 --port 8090 --input input_16k.wav

스피치 서버로 텍스트 스트리밍을 시작하십시오

 paddlespeech_server start --config_file ./demos/streaming_tts_server/conf/tts_online_application.yaml

연설 서비스에 스트리밍 텍스트에 액세스하십시오

 paddlespeech_client tts_online --server_ip 127.0.0.1 --port 8092 --protocol http --input "您好，欢迎使用百度飞桨语音合成服务。" --output output.wav

자세한 내용은 스트리밍 ASR 및 스트리밍 TTS를 참조하십시오.

모델 목록

PaddlesPeech는 일련의 가장 인기있는 모델을 지원합니다. 그들은 릴리스 된 모델로 요약되어 있으며 사용 가능한 사전 모델과 함께 첨부됩니다.

Speech-to-Text 에는 음향 모델 , 언어 모델 및 음성 번역이 포함되어 있으며 다음과 같은 세부 사항이 포함됩니다.

음성-텍스트 모듈 유형	데이터 세트	모델 유형	예
연설 인식	Aishell	DeepSpeech2 RNN + CONV 기반 모델	DeepPeech2-Aishell
	Aishell	변압기 기반주의 모델	u2.transformer.comerformer-aishell
	librispeech	변압기 기반주의 모델	DeepPeech2-librispirech/transformer.comformer.u2-librispirech/transformer.comformer.u2-Kaldi-Librispirech
	소심한	통합 스트리밍 및 비 스트리밍 2 패스	U2- 타임
조정	THCHS30	MFA	MFA-THCHS30
언어 모델	NGRAM 언어 모델		Kenlm
언어 번역 (영어로 중국어)	테드 en-zh	변압기 + ASR MTL	변압기
언어 번역 (영어로 중국어)	테드 en-zh	지방 + 변압기 + ASR MTL	뚱뚱한-정식

PaddlesPeech의 텍스트 음성은 주로 텍스트 프론트 엔드 , 음향 모델 및 보코더의 세 가지 모듈을 포함합니다. 음향 모델 및 보코더 모델은 다음과 같이 나열됩니다.

텍스트 음성 변환 모듈 유형	모델 유형	데이터 세트	예
텍스트 프론트 엔드			TN/G2P
음향 모델	타코 트론 2	ljspeech/csmsc	타코 트론 2-Ljspeech/타코 트론 2-CSMSC
	변압기 TTS	ljspeech	변압기 ljspeech
	speedyspeech	CSMSC	speedyspeech-csmsc
	FastSpeech2	ljspeech / vctk / csmsc / aishell-3 / zh_en / fineune	FastSpeech2-ljspeech/fastspeech2-vctk/fastspeech2-csmsc/fastspeech2-aishell3/fastspeech2-zh_en/fastspeech2-finenetune
	어니 시트	vctk / aishell-3 / zh_en	Ernie-Sat-vctk / Ernie-Sat-Aishell3 / Ernie-Sat-Zh_en
	Diffsinger	Opencpop	diffsinger-opencpop
보코더	웨이브 플로우	ljspeech	WaveFlow-ljspeech
	평행 파간	ljspeech / vctk / csmsc / aishell-3 / opencpop	pwgan-ljspeech / pwgan-vctk / pwgan-csmsc / pwgan-aishell3 / pwgan-opencpop
	멀티 밴드 멜간	CSMSC	멀티 밴드 melgan-csmsc
	스타일 멜간	CSMSC	스타일 melgan-csmsc
	Hifigan	ljspeech / vctk / csmsc / aishell-3 / opencpop	Hifigan-ljspeech / hifigan-vctk / hifigan-csmsc / hifigan-aishell3 / hifigan-opencpop
	Wavernn	CSMSC	Wavernn-CSMSC
음성 복제	GE2E	librispeech 등	GE2E
	SV2TTS (GE2E + Tacotron2)	Aishell-3	VC0
	SV2TTS (GE2E + FastSpeech2)	Aishell-3	VC1
	SV2TTS (ECAPA-TDNN + FASTSPEECH2)	Aishell-3	VC2
	GE2E + VITS	Aishell-3	VITS-VC
엔드 투 엔드	vits	CSMSC / AISHELL-3	VITS-CSMSC/VITS-AISHELL3

오디오 분류

일	데이터 세트	모델 유형	예
오디오 분류	ESC-50	팬	Pann-Esc50

키워드 발견

일	데이터 세트	모델 유형	예
키워드 발견	Hey-snips	MDTC	mdtc-hey-snips

스피커 확인

일	데이터 세트	모델 유형	예
스피커 확인	Voxceleb1/2	ECAPA-TDNN	ECAPA-TDNN-VOXCELEB12

스피커 발기

일	데이터 세트	모델 유형	예
스피커 발기	아미	ECAPA-TDNN + AHC / SC	ECAPA-TDNN-AMI

구두점 복원

일	데이터 세트	모델 유형	예
구두점 복원	IWLST2012_ZH	어니 선형	IWSLT2012-PUNCH0

서류

일반적으로 Speech Sota, Audio Sota 및 Music Sota는 관련 분야의 뜨거운 학문 주제에 대한 개요를 제공합니다. PaddlesPeech의 작업에 집중하려면 다음 지침이 핵심 아이디어를 잡는 데 도움이됩니다.

설치
빠른 시작
일부 데모
튜토리얼
- 자동 음성 인식
  - 소개
  - 데이터 준비
  - Ngram LM
- 텍스트 음성
  - 소개
  - 고급 사용
  - 중국 규칙 기반 텍스트 프론트 엔드
  - 오디오 샘플을 테스트하십시오
- 스피커 확인
  - 오디오 검색
  - 스피커 확인
- 오디오 분류
- 연설 번역
- 음성 서버
릴리스 모델
- 음성-텍스트
- 텍스트 음성
- 오디오 분류
- 스피커 확인
- 스피커 발기
- 구두점 복원
지역 사회
기여에 오신 것을 환영합니다
특허

텍스트 음성 변환 모듈은 원래 Parakeet이라고하며 이제는이 저장소와 병합됩니다. 이 과제에 대한 학업 연구에 관심이 있으시면 TTS 연구 개요를 참조하십시오. 또한이 문서는 파이프 라인 구성 요소에 대한 좋은 지침입니다.

예

Paddlebobo : Paddlespeech TTS를 사용하여 가상 인간의 목소리를 생성하십시오.

Paddlespeech 데모 비디오
vtubertalk : 동영상에서 음성을 복제하기 위해 Paddlespeech tts 및 ASR을 사용하십시오.

소환

연구를 위해 패들링 스피치를 인용하려면 다음 형식을 사용하십시오.

 @inproceedings{zhang2022paddlespeech,
    title = {PaddleSpeech: An Easy-to-Use All-in-One Speech Toolkit},
    author = {Hui Zhang, Tian Yuan, Junkun Chen, Xintong Li, Renjie Zheng, Yuxin Huang, Xiaojie Chen, Enlei Gong, Zeyu Chen, Xiaoguang Hu, dianhai yu, Yanjun Ma, Liang Huang},
    booktitle = {Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies: Demonstrations},
    year = {2022},
    publisher = {Association for Computational Linguistics},
}

@InProceedings{pmlr-v162-bai22d,
  title = {{A}$^3${T}: Alignment-Aware Acoustic and Text Pretraining for Speech Synthesis and Editing},
  author = {Bai, He and Zheng, Renjie and Chen, Junkun and Ma, Mingbo and Li, Xintong and Huang, Liang},
  booktitle = {Proceedings of the 39th International Conference on Machine Learning},
  pages = {1399--1411},
  year = {2022},
  volume = {162},
  series = {Proceedings of Machine Learning Research},
  month = {17--23 Jul},
  publisher = {PMLR},
  pdf = {https://proceedings.mlr.press/v162/bai22d/bai22d.pdf},
  url = {https://proceedings.mlr.press/v162/bai22d.html},
}

@inproceedings{zheng2021fused,
  title={Fused acoustic and text encoding for multimodal bilingual pretraining and speech translation},
  author={Zheng, Renjie and Chen, Junkun and Ma, Mingbo and Huang, Liang},
  booktitle={International Conference on Machine Learning},
  pages={12736--12746},
  year={2021},
  organization={PMLR}
}

패들링 스피치에 기여합니다

토론 및 버그 보고서에서 질문을 제출할 수 있습니다. 또한이 프로젝트에 기꺼이 기여할 기부한다면 감사합니다!

기고자

승인

Vits-Aishell3 및 VITS-VC 예제를 추가 한 HighCWU에게 감사드립니다.
다중 구간 부호 버그를 수정하고 여러 프로그램 및 데이터에 기여하며 TTS 중국어 텍스트 프론트 엔드에 SSML을 추가 한 David-95에 감사드립니다.
G2PW를 기반으로 TTS Coves Frontend를 개선 한 Barrykcl에게 감사드립니다.
Yeyupiaoling/PPASR/PASDLEPLADE-DEEPSEECH/VOICEPRINTRECONGICE-PLADEPDADE/AudioClassification-PaddlePaddle 덕분에 많은 관심, 건설적인 조언 및 큰 도움을 주셔서 감사합니다.
짧고 긴 오디오 파일에서 ASR의 Java 구현에 대한 MyMagicPower에 감사드립니다.
가상 업 로더 (VUP)/Virtual YouTuber (VTUBER)를 패들링 스피치 TTS 기능으로 개발 한 Jiehangxie/PaddleBobo에게 감사드립니다.
구두점 복원 모델에 기여한 745165806/Paddlespeechtask에 감사드립니다.
보충 중국 문서에 대한 KSLZ에게 감사드립니다.
FastSpeech2 Aishell3 양치질 모델에 기여한 AWMMMM에게 감사드립니다.
PheCDA-XU/Paddledledubbing 덕분에 PaddlesPeech TTS 모델을 기반으로 GUI로 더빙 도구를 개발했습니다.
PaddlesPeech TTS를 기반으로 GUI 도구를 개발 한 Jerryuho/Vtubertalk 덕분에 많은 감사합니다.
RASA 챗봇을 개발 한 VPEGASUS/XUESEBOT 덕분에 PaddlesPeech 덕분에 말하고들을 수 있습니다.
C ++ 추론 ASR의 C ++ 추론에 대한 Chenkui164/FastASR에 감사드립니다.
ASR 스트리밍 서비스의 실시간 음성 타이핑 도구 구현에 대한 Heyudage/Voicetyping에 감사드립니다.
Viusal Studio가없는 Windows에서 패들리스 스피치 설치를위한 Python3.9의 Escaticzheng/ps3.9wheel-install에 감사드립니다. 게다가, 패들리스 피치는 많은 오픈 소스 리포지토리에 따라 다릅니다. 자세한 내용은 참조를 참조하십시오.
Fastapi 및 Paddlespeech를 기반으로 오디오를 텍스트로 변환하기위한 Chinobing/Fastapi-Paddlespeech-Audio-text 덕분에 많은 감사를드립니다.
Paddlespeech TTS를 기반으로 QQ 봇 용 Misteo/Pallas-Bot 덕분에 많은 감사합니다.

특허

패들 레스피치는 Apache-2.0 라이센스에 따라 제공됩니다.

시간이 지남에 따라 스타 게이저

확장하다

추가 정보

버전 PaddleSpeech r1.4.2
유형 AI 소스 코드
업데이트 시간 2025-08-20
크기 19.75MB
출처 Github