PaddleSpeech Download - PaddleSpeech Quellcode Download

PaddleSpeech

AI-Quellcode

PaddleSpeech r1.4.2

Herunterladen

(Vereinfachtes Chinesisch | Englisch)

Schneller Start | Dokumente | Modelsliste | Aistudio -Kurse | NAACL2022 Best Demo Award Paper | Gitee

PaddleSpeech ist ein Open-Source-Toolkit auf der Paddlepaddle-Plattform für eine Vielzahl kritischer Aufgaben in Sprache und Audio mit den hochmodernen und Einflussmodellen.

PaddleSpeech gewann den NAACL2022 Best Demo Award, bitte schauen Sie sich unser Papier über Arxiv an.

Spracherkennung

Eingabe Audio	Erkennungsergebnisse
	Ich klopfte an die Tür auf der alten Seite des Gebäudes.
	Ich denke, das Wichtigste am Laufen ist, mir eine gute Gesundheit zu bringen.

Sprachübersetzung (Englisch zu Chinesisch)

Eingabe Audio	Übersetzungsergebnisse
	Ich klopfte an die alte Tür dieses Gebäudes.

Text-to-Speech

Text eingeben	Synthetischer Audio
Das Leben war wie eine Schachtel Pralinen, du weißt nie, was du bekommst.
Guten Morgen, heute ist 2020/10/29 mit einer Mindesttemperatur von -3 ° C.
Ji Ji Ji, die Hühner und Hühner sammeln, sind dornige Hühner. Das Thorn -Huhn ist hungrig, Ji Ji und Ji Ji helfen dem Huhn. Wenn die Hühner gemischt sind, werden sie von Ji Ji begleitet. Ji Ji ist sehr schnell das Huhn, das Huhn ist dringend und der Schurke ist dringend, Ji Ji ist ängstlich und dann schlägt er das Huhn. Ji Ji schlägt schnell auf das Huhn. Wenn das Huhn tot ist, ist Ji Ji aufgeregt und er schreibt den "Ji Ji's Klopft das Huhn".
Hallo allerseits, ich bin der virtuelle Lehrer von Papagei. Lassen Sie uns ein Gedicht lesen. Ich und die Frühlingsbrise gehen vorbei. Sie nehmen das Herbstwasser, um die Galaxie zu nehmen.
IKEA ist für Sie nicht notwendig, über das Sie sprechen können, aber was Sie sagen, wird eine Präsentation und ein Geständnis.
Jedes Land hat eine eigene Nationalhymne

Weitere synthetisierte Audios finden Sie unter PaddleSpeech-Text-zu-Sprach-Proben.

Interpunktion restauriert

Text eingeben	Text ausgeben
Das Wetter ist heute wirklich gut. Hast du Zeit am Nachmittag? Ich möchte Sie bitten, zusammen zu Abend zu essen	Das Wetter heute ist wirklich gut! Bist du am Nachmittag frei? Ich möchte Sie bitten, zusammen eine Mahlzeit zu haben.

Merkmale

Über die einfach zu bedienende, effiziente, flexible und skalierbare Implementierung besteht unsere Vision darin, sowohl die industrielle Anwendung als auch die akademische Forschung zu stärken, einschließlich Schulungen, Inferenz- und Testmodulen und Bereitstellungen. Um genauer zu sein, Funktionen dieses Toolkit bei:

? Benutzerfreundlichkeit : Niedrige Hindernisse für die Installation, CLI, Server und Streaming-Server stehen zur Verfügung, um Ihre Reise schnell zu starten.
? Übereinstimmung mit dem hochmodernen : Wir bieten Hochgeschwindigkeits- und Ultra-Light-Gewicht-Modelle sowie hochmoderne Technologien.
? Streaming ASR- und TTS -System : Wir bieten Produktionsbereitschafts -Streaming -ASR- und Streaming -TTS -System.
? Regelbasiertes chinesisches Frontend : Unser Frontend enthält Textnormalisierung und Graphem-zu-Phonem (G2P, einschließlich Polyphone und Ton Sandhi). Darüber hinaus verwenden wir selbstdefinierte sprachliche Regeln, um den chinesischen Kontext anzupassen.
? Sorten von Funktionen, die sowohl Industrie- als auch Wissenschaftswissenschaften vitalisieren :
- ? ️ Implementierung kritischer Audioaufgaben : Dieses Toolkit enthält Audiofunktionen wie automatische Spracherkennung, Synthese der Text-zu-Sprache, Lautsprecherverfikation, Keyword-Erkennung, Audioklassifizierung und Sprachübersetzung usw.
- ? Integration von Mainstream -Modellen und Datensätzen : Das Toolkit implementiert Module, die an der gesamten Pipeline der Sprachaufgaben beteiligt sind, und verwendet Mainstream -Datensätze wie Librispeech, Ljspeech, Aishell, CSMSC usw. Weitere Informationen finden Sie unter Modellliste.
- ? Kaskadierte Modelle Anwendung : Als Erweiterung der typischen herkömmlichen Audioaufgaben kombinieren wir die Workflows der entfremdeten Aufgaben mit anderen Feldern wie natürlichen Sprachverarbeitung (NLP) und Computer Vision (CV).

Neueres Update

? 2023.05.31: Fügen Sie Wavlm ASR-EN hinzu, Wavlm-Feinabstimmung für ASR auf Librispeech.
? 2023.05.18: Squeezeformer hinzufügen, Squeezeformer -Training für ASR auf Aishell.
? 2023.05.04: Fügen Sie Hubert Asr-en, Hubert-Feinabstimmung für ASR auf Librispeech hinzu.
⚡ 2023.04.28: Fix 0-D-Tensor mit dem Upgrade von Paddlepaddle == 2.5 wurde das Problem der Modifizierung von 0-D-Tensor gelöst.
? 2023.04.25: AMP für den U2 -Konformer hinzufügen.
2023.04.06: Beispiel für Untertiteldatei (.SRT -Format) Erzeugungsbeispiel.
2023.03.14: Beispiele für SVS (Singing Voice Synthese) mit OpenCpop -Datensatz, einschließlich Diffsinger, Pwgan und HiFigan, wird der Effekt kontinuierlich optimiert.
? 2023.03.09: WAV2VEC2ASR-EN hinzufügen.
? 2023.03.07: Fügen Sie TTS ARM Linux C ++ Demo hinzu (mit C ++ chinesischer Textfrontend).
2023.03.03 Hinzufügen von Sprachumwandlung Starganv2-VC-Synthese-Pipeline.
? 2023.02.16: Fügen Sie kantonesische TTs hinzu.
2023.01.10: Fügen Sie den Code-Schalter ASR CLI und Demos hinzu.
? 2023.01.06: Hinzufügen von Code-Switch-ASR Tal_CS-Rezept.
? 2022.12.02: Hinzufügen von End-to-End-Prognose-Vorhersagepipeline (einschließlich der Verwendung von Prosody-Etiketten im akustischen Modell).
? 2022.11.30: Fügen Sie TTS Android Demo hinzu.
? 2022.11.28: PP-TTS und PP-ASR-Demos sind auf der Aistudio und der offiziellen Website von Paddlepaddle erhältlich.
? 2022.11.18: Fügen Sie Whisper CLI und Demos hinzu, unterstützen Sie mehrsprachige Erkennung und Übersetzung.
2022.11.18: Fügen Sie WAV2VEC2 CLI und Demos hinzu, unterstützen Sie die ASR- und Funktionextraktion.
? 2022.11.17: Fügen Sie männliche Stimme für TTS hinzu.
2022.11.07: u2/u2 ++ C ++ Hochleistungs -Streaming -ASR -Bereitstellung hinzufügen.
? 2022.11.01: Fügen Sie den kontroversen Verlust für chinesische englische gemischte TTs hinzu.
2022.10.26: Prognose für TTs hinzufügen.
? 2022.10.21: Fügen Sie SSML für TTS Chinese Text Frontend hinzu.
? 2022.10.11: Fügen Sie WAV2VEC2ASR-EN, WAV2VEC2.0 FINE-TUN für ASR auf Librispeech hinzu.
2022.09.26: Fügen Sie Sprachkloning, TTS-Finetune und Ernie-Sa in PaddleSpeech Web Demo hinzu.
⚡ 2022.09.09: Fügen Sie Aishell-3-Sprachklon-Beispiel mit Ecapa-TDNN-Lautsprecher-Encoder hinzu.
⚡ 2022.08.25: TTS -Finetune -Beispiel veröffentlicht.
2022.08.22: Hinzufügen von ernie-sa-Models: Ernie-Sat-VCTK, Ernie-Sat-Aishell3, Ernie-sat-Zh_en.
2022.08.15: Fügen Sie G2PW in die chinesische Textfrontende des TTS hinzu.
2022.08.09: Veröffentlichung chinesischer englischer gemischter TTS.
⚡ 2022.08.03: Hinzufügen von Onnxruntime FIND für TTS CLI.
? 2022.07.18: Release Vits: Vits-CSMSC, Vits-Ashell3, Vits-VC.
? 2022.06.22: Alle TTS -Modelle unterstützen das OnNX -Format.
? 2022.06.17: Fügen Sie PaddleSpeech Web Demo hinzu.
? 2022.05.13: PP-ASR, PP-TTS, PP-VPR.
? 2022.05.06: PaddleSpeech Streaming Server steht für Streaming ASR mit Punctuation Restoration und Token Timestamp und Text-to-Speech zur Verfügung.
? 2022.05.06: PaddleSpeech Server ist für Audio Classification , Automatic Speech Recognition und Text-to-Speech , Speaker Verification und Punctuation Restoration verfügbar.
? 2022.03.28: PaddleSpeech CLI ist für Speaker Verification verfügbar.
? 2021.12.10: PaddleSpeech CLI ist für Audio Classification , Automatic Speech Recognition , Speech Translation (English to Chinese) und Text-to-Speech verfügbar.

Gemeinschaft

Scannen Sie den folgenden QR -Code mit Ihrem WeChat. Freuen Sie sich auf Ihre Teilnahme.

Installation

Wir empfehlen unseren Benutzern dringend, Paddlespeech in Linux mit Python> = 3,8 und Paddlepaddle <= 2.5.1 zu installieren. Einige neue Paddelversionen haben keine Unterstützung für die Anpassung in PaddleSpeech, daher können derzeit nur Versionen 2.5.1 und früher unterstützt werden.

Abhängigkeit Einführung

GCC> = 4,8,5
Paddlepaddle <= 2.5.1
Python> = 3,8
OS -Unterstützung: Linux (Empfehlung), Windows, Mac OSX

PaddleSpeech hängt von Paddlepaddle ab. Für die Installation finden Sie auf der offiziellen Website von Paddlepaddle und wählen Sie nach Ihrem eigenen Computer. Hier ist ein Beispiel für die CPU -Version.

pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple

Sie können auch die Version von Paddlepaddle angeben oder die Entwicklungsversion installieren.

 # install 2.4.1 version. Note, 2.4.1 is just an example, please follow the minimum dependency of paddlepaddle for your selection
pip install paddlepaddle==2.4.1 -i https://mirror.baidu.com/pypi/simple
# install develop version
pip install paddlepaddle==0.0.0 -f https://www.paddlepaddle.org.cn/whl/linux/cpu-mkl/develop.html

Es gibt zwei schnelle Installationsmethoden für PaddleSpeech, eine ist die PIP -Installation und der andere die Quellcode -Kompilierung (empfohlen).

PIP -Installation

pip install pytest-runner
pip install paddlespeech

Quellcodekompilierung

git clone https://github.com/PaddlePaddle/PaddleSpeech.git
cd PaddleSpeech
pip install pytest-runner
pip install .

Weitere Installationsprobleme wie Conda Environment, librosa-abhängige, GCC-Probleme, Kaldi-Installation usw. Sie können auf dieses Installationsdokument verweisen. Wenn Sie während der Installation auf Probleme stoßen, können Sie eine Nachricht auf #2150 hinterlassen und verwandte Probleme finden

Schneller Start

Entwickler können unsere Modelle mit PaddleSpeech -Befehlszeile oder Python ausprobieren. Ändern --input um Ihren eigenen Audio/Text zu testen und das 16K -WAV -Format -Audio zu unterstützen.

Sie können es auch schnell im AI -Studio erleben? Paddlespeech API Demo

Testen Sie Audio Beispiel Download

wget -c https://paddlespeech.bj.bcebos.com/PaddleAudio/zh.wav
wget -c https://paddlespeech.bj.bcebos.com/PaddleAudio/en.wav

Automatische Spracherkennung

（Klicken Sie hier, um） Open Source Spracherkennung zu erweitern

Befehlszeilenerfahrung

paddlespeech asr --lang zh --input zh.wav

Python -API -Erfahrung

 > >> from paddlespeech . cli . asr . infer import ASRExecutor
> >> asr = ASRExecutor ()
> >> result = asr ( audio_file = "zh.wav" )
> >> print ( result )
我认为跑步最重要的就是给我带来了身体健康

Text-to-Speech

Open -Source -Sprachsynthese

Ausgabe 24k Probenrate WAV Format Audio

Befehlszeilenerfahrung

paddlespeech tts --input "你好，欢迎使用百度飞桨深度学习框架！ " --output output.wav

Python -API -Erfahrung

 > >> from paddlespeech . cli . tts . infer import TTSExecutor
> >> tts = TTSExecutor ()
> >> tts ( text = "今天天气十分不错。" , output = "output.wav" )

Sie können bei der TTS -Demo von Umarmungen erleben

Audioklassifizierung

Ein Tool zur Klassifizierung des Open-Domain-Sounds

Klassifizierungsmodell basierend auf 527 Kategorien des Audioset -Datensatzes

Befehlszeilenerfahrung

paddlespeech cls --input zh.wav

Python -API -Erfahrung

 > >> from paddlespeech . cli . cls . infer import CLSExecutor
> >> cls = CLSExecutor ()
> >> result = cls ( audio_file = "zh.wav" )
> >> print ( result )
Speech 0.9027186632156372

Voiceprint -Extraktion

Sprachabdruckextraktionswerkzeug für Industriequalität

Befehlszeilenerfahrung

paddlespeech vector --task spk --input zh.wav

Python -API -Erfahrung

 > >> from paddlespeech . cli . vector import VectorExecutor
> >> vec = VectorExecutor ()
> >> result = vec ( audio_file = "zh.wav" )
> >> print ( result ) # 187维向量
[ - 0.19083306   9.474295   - 14.122263    - 2.0916545    0.04848729
   4.9295826    1.4780062    0.3733844   10.695862     3.2697146
  - 4.48199     - 0.6617882   - 9.170393   - 11.1568775   - 1.2358263 ...]

Interpunktion restauriert

Schnelle Wiederherstellung der Textsetzung funktioniert mit ASR -Modellen

Befehlszeilenerfahrung

paddlespeech text --task punc --input 今天的天气真不错啊你下午有空吗我想约你一起去吃饭

Python -API -Erfahrung

 > >> from paddlespeech . cli . text . infer import TextExecutor
> >> text_punc = TextExecutor ()
> >> result = text_punc ( text = "今天的天气真不错啊你下午有空吗我想约你一起去吃饭" )
今天的天气真不错啊！你下午有空吗？我想约你一起去吃饭。

Sprachübersetzung

End-to-End-Englisch-zu-chinesischer Sprachübersetzungsinstrument

Verwenden Sie vorgefertigte Kaldi-verwandte Tools und unterstützen Sie nur die Erfahrung im Ubuntu-System

Befehlszeilenerfahrung

paddlespeech st --input en.wav

Python -API -Erfahrung

 > >> from paddlespeech . cli . st . infer import STExecutor
> >> st = STExecutor ()
> >> result = st ( audio_file = "en.wav" )
[ '我 在 这栋 建筑 的 古老 门上 敲门 。' ]

Schneller Startserver

Entwickler können unseren Sprachserver mit PaddleSpeech -Server -Befehlszeile versuchen.

Sie können es schnell in AI Studio (empfehlen): RedeServer versuchen

Server starten

paddlespeech_server start --config_file ./demos/speech_server/conf/application.yaml

Zugriff auf Spracherkennungsdienste

paddlespeech_client asr --server_ip 127.0.0.1 --port 8090 --input input_16k.wav

Zugriff auf Text zu Sprachdiensten

paddlespeech_client tts --server_ip 127.0.0.1 --port 8090 --input "您好，欢迎使用百度飞桨语音合成服务。 " --output output.wav

Zugriff auf Audio -Klassifizierungsdienste

paddlespeech_client cls --server_ip 127.0.0.1 --port 8090 --input input.wav

Weitere Informationen zu Server -Befehlszeilen finden Sie unter: Sprachserver -Demos

Schnellstart -Streaming -Server

Entwickler können versuchen, ASR zu streamen und den TTS -Server zu streamen.

Starten Sie den Streaming -Spracherkennungsserver

 paddlespeech_server start --config_file ./demos/streaming_asr_server/conf/application.yaml

Zugriff auf Streaming -Spracherkennungsdienste

 paddlespeech_client asr_online --server_ip 127.0.0.1 --port 8090 --input input_16k.wav

Starten Sie das Streaming -Text auf Sprachserver

 paddlespeech_server start --config_file ./demos/streaming_tts_server/conf/tts_online_application.yaml

Zugriff auf Streaming -Text zu Sprachdiensten

 paddlespeech_client tts_online --server_ip 127.0.0.1 --port 8092 --protocol http --input "您好，欢迎使用百度飞桨语音合成服务。" --output output.wav

Weitere Informationen finden Sie unter: Streaming ASR und Streaming TTS

Modellliste

PaddleSpeech unterstützt eine Reihe von beliebtesten Modellen. Sie werden in freigegebenen Modellen zusammengefasst und mit verfügbaren vorbereiteten Modellen angeschlossen.

Sprach-zu-Text enthält akustisches Modell , Sprachmodell und Sprachübersetzung mit den folgenden Details:

Sprach-zu-Text-Modul-Typ	Datensatz	Modelltyp	Beispiel
Sprachrekogination	Aishell	DeepSpeech2 RNN + CONV -basierte Modelle	Deepppeech2-Aishell
	Aishell	Transformatorbasierte Aufmerksamkeitsmodelle	U2.Transformer.Conformer-Aishell
	Librispeech	Transformatorbasierte Aufmerksamkeitsmodelle	deepppeech2-librispirech/transformator.conformer.u2-librispirech/transformator
	Timit	Unified Streaming & Nicht-Streaming-Zwei-Pass	U2-Timit
Ausrichtung	Thchs30	MFA	MFA-thchs30
Sprachmodell	Ngram -Sprachmodell		Kenlm
Sprachübersetzung (Englisch zu Chinesisch)	Ted En-Zh	Transformator + ASR MTL	Transformator
Sprachübersetzung (Englisch zu Chinesisch)	Ted En-Zh	Fett + Transformator + ASR MTL	FAT-ST-DED

Text-to-Speech in PaddleSpeech enthält hauptsächlich drei Module: Textfrontend , akustisches Modell und Vocoder . Akustische Modell- und Vocoder -Modelle sind wie folgt aufgeführt:

Text-to-Speech-Modul-Typ	Modelltyp	Datensatz	Beispiel
Text Frontend			TN/G2P
Akustisches Modell	Tacotron2	Ljspeech/csmsc	tacotron2-ljspeech/tacotron2-csmsc
	Transformator TTS	Ljspeech	Transformator-ljspeech
	SpeedySpeech	CSMSC	SpeedySpeech-CSMSC
	Fastspeech2	Ljspeech / vctk / csmsc / aishell-3 / zh_en / feinune	fastspeech2-ljSpeech/fastspeech2-vctk/fastspeech2-csmsc/fastspeech2-Aishell3/fastspeech2-zh_en/fastspeech2-finenetune
	Ernie-sa	Vctk / aishell-3 / zh_en	Ernie-Sat-VCTK / Ernie-Sat-Aishell3 / Ernie-sat-Zh_en
	Diffsinger	OpenCpop	Diffsinger-OpenCpop
Vocoder	Wellenfluss	Ljspeech	Wellenfluss-Ljspeech
	Paralleler Wavegan	Ljspeech / vctk / csmsc / Aishell-3 / openCpop	Pwgan-ljspeech / pwgan-vctk / pwgan-csmsc / pwgan-aishell3 / pwgan-opencpop
	Multi -Band Melgan	CSMSC	Multi-Band Melgan-CSMSC
	Stil Melgan	CSMSC	Stil Melgan-CSMSC
	HiFigan	Ljspeech / vctk / csmsc / Aishell-3 / openCpop	HiFigan-Ljspeech / Hifligan-VCTK / HiFigan-CSMSC / HiFigan
	Ravernn	CSMSC	Gernn-csmsc
Sprachklonen	Ge2e	Librispeech usw.	Ge2e
	SV2TTS (GE2E + TACOTRON2)	Aishell-3	VC0
	SV2TTS (GE2E + Fastspeech2)	Aishell-3	VC1
	SV2TTS (ECAPA-TDNN + Fastspeech2)	Aishell-3	VC2
	GE2E + Vits	Aishell-3	Vits-vc
End-to-End	Vits	CSMSC / Aishell-3	Vits-csmsc/vits-aishell3

Audioklassifizierung

Aufgabe	Datensatz	Modelltyp	Beispiel
Audioklassifizierung	Esc-50	Pann	Pann-Esesc50

Schlüsselwort Erspotung

Aufgabe	Datensatz	Modelltyp	Beispiel
Schlüsselwort Erspotung	Hey Snips	MDTC	Mdtc-hey-Snips

Sprecherüberprüfung

Aufgabe	Datensatz	Modelltyp	Beispiel
Sprecherüberprüfung	Voxceleb1/2	Ecapa-tdnn	ECAPA-TDNN-VOXCELEB12

Sprecherdurchfall

Aufgabe	Datensatz	Modelltyp	Beispiel
Sprecherdurchfall	AMI	ECAPA-TDNN + AHC / SC	ECAPA-TDNN-Ami

Interpunktion restauriert

Aufgabe	Datensatz	Modelltyp	Beispiel
Interpunktion restauriert	IWLST2012_ZH	Ernie linear	IWSLT2012-Punch0

Unterlagen

Normalerweise geben Ihnen Sprach -Sota, Audio Sota und Music Sota einen Überblick über die heißen akademischen Themen im verwandten Bereich. Um sich auf die Aufgaben in PaddleSpeech zu konzentrieren, finden Sie die folgenden Richtlinien, um die Kernideen zu trinken.

Installation
Schneller Start
Einige Demos
Tutorials
- Automatische Spracherkennung
  - Einführung
  - Datenvorbereitung
  - Ngram lm
- Text-to-Speech
  - Einführung
  - Erweiterte Verwendung
  - Chinesische regulierte Textfrontend
  - Audio -Proben testen
- Sprecherüberprüfung
  - Audio -Suche
  - Sprecherüberprüfung
- Audioklassifizierung
- Sprachübersetzung
- Sprachserver
Freigegebene Modelle
- Sprache zu Text
- Text-to-Speech
- Audioklassifizierung
- Sprecherüberprüfung
- Sprecherdurchfall
- Interpunktion restauriert
Gemeinschaft
Willkommen, um einen Beitrag zu leisten
Lizenz

Das Text-zu-Sprach-Modul wird ursprünglich als SPAKEET bezeichnet und nun mit diesem Repository zusammengeführt. Wenn Sie an akademischen Forschungen zu dieser Aufgabe interessiert sind, finden Sie im TTS -Forschungsüberblick. Außerdem ist dieses Dokument eine gute Richtlinie für die Pipeline -Komponenten.

Beispiele

Paddlebobo: Verwenden Sie Paddlespeech -TTs, um eine virtuelle menschliche Stimme zu erzeugen.

PaddleSpeech Demo Video
Vtubertalk: Verwenden Sie PaddleSpeech TTS und ASR, um die Stimme aus Videos zu klonen.

Zitat

Verwenden Sie das folgende Format, um Paddlespeech für Forschung zu zitieren.

 @inproceedings{zhang2022paddlespeech,
    title = {PaddleSpeech: An Easy-to-Use All-in-One Speech Toolkit},
    author = {Hui Zhang, Tian Yuan, Junkun Chen, Xintong Li, Renjie Zheng, Yuxin Huang, Xiaojie Chen, Enlei Gong, Zeyu Chen, Xiaoguang Hu, dianhai yu, Yanjun Ma, Liang Huang},
    booktitle = {Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies: Demonstrations},
    year = {2022},
    publisher = {Association for Computational Linguistics},
}

@InProceedings{pmlr-v162-bai22d,
  title = {{A}$^3${T}: Alignment-Aware Acoustic and Text Pretraining for Speech Synthesis and Editing},
  author = {Bai, He and Zheng, Renjie and Chen, Junkun and Ma, Mingbo and Li, Xintong and Huang, Liang},
  booktitle = {Proceedings of the 39th International Conference on Machine Learning},
  pages = {1399--1411},
  year = {2022},
  volume = {162},
  series = {Proceedings of Machine Learning Research},
  month = {17--23 Jul},
  publisher = {PMLR},
  pdf = {https://proceedings.mlr.press/v162/bai22d/bai22d.pdf},
  url = {https://proceedings.mlr.press/v162/bai22d.html},
}

@inproceedings{zheng2021fused,
  title={Fused acoustic and text encoding for multimodal bilingual pretraining and speech translation},
  author={Zheng, Renjie and Chen, Junkun and Ma, Mingbo and Huang, Liang},
  booktitle={International Conference on Machine Learning},
  pages={12736--12746},
  year={2021},
  organization={PMLR}
}

Beitragen zu PaddleSpeech

Sie sind herzlich eingeladen, Fragen in Diskussionen und Fehlerberichten in Themen einzureichen! Wir schätzen auch sehr, ob Sie bereit sind, zu diesem Projekt beizutragen!

Mitwirkende

Anerkennung

Vielen Dank an Highcwu für das Hinzufügen von Vits-Aishell3- und Vits-VC-Beispielen.
Vielen Dank an David-95 für die Behebung von Multi-PUNK-Fehler, bei Beitrag zu mehreren Programmen und Daten und dem Hinzufügen von SSML für TTS Chinese Text Frontend.
Vielen Dank an Barrykcl für die Verbesserung von TTS Chises Frontend basierend auf G2PW.
Vielen Dank an Yeyupiaoling/PPASR/Paddlepaddle-Deepspeech/VoiceprinTrecognition-Paddlepaddle/Audioklassifizierungs-Paddlepaddle für jahrelange Aufmerksamkeit, konstruktive Ratschläge und große Hilfe.
Vielen Dank an MyMagicPower für die Java -Implementierung von ASR nach kurzen und langen Audiodateien.
Vielen Dank an JiHangxie/Paddlebobo für die Entwicklung des virtuellen Uploaders (VUP)/virtuellen YouTuber (VTUBER) mit Paddlespeech -TTS -Funktion.
Vielen Dank an 745165806/PaddleSpeechtask für das Beitrag zur Wiederherstellung des Interpunktionsrestaurierens.
Vielen Dank an KSLZ für zusätzliche chinesische Dokumente.
Vielen Dank an AWMMMM für den Beitrag von Fastspeech2 Aishell3 Conformer PretRained Model.
Vielen Dank an PHECDA-XU/PADDLEDUBBING für die Entwicklung eines Synchronisationswerkzeugs mit GUI, das auf PaddleSpeech TTS-Modell basiert.
Vielen Dank an Jerryuho/Vtubertalk für die Entwicklung eines GUI -Tools, das auf PaddleSpeech -TTs und Code für die Herstellung von Datensätzen aus Videos basierend auf PaddleSpeech ASR erstellt wurde.
Vielen Dank an Vpegasus/XueSebot für die Entwicklung eines Rasa -Chatbots, der dank Paddlespeech sprechen und zuhören kann.
Vielen Dank an Chenkui164/Fastasr für die C ++ - Inferenzimplementierung von PaddleSpeech ASR.
Vielen Dank an Heyudage/Voicetyping für die Implementierung von Paddlespeech-Streaming-Diensten von Paddlespeech-Streaming-Diensten in Echtzeit.
Vielen Dank an Escaticzheng/PS3.9WHEEL-INSTALL für das Python3.9-vorgefertigtes Rad für Paddlespeech-Installation in Windows ohne Violal Studio. Außerdem hängt Paddlespeech von vielen Open -Source -Repositorys ab. Weitere Informationen finden Sie in Referenzen.
Vielen Dank an Chinobing/Fastapi-PaddleSpeech-Audio-to-Text-zu-Text, um Audio in Text basierend auf Fastapi und Paddlespeech zu konvertieren.
Vielen Dank an Misto/Pallas-Bot für QQ Bot basierend auf Paddlespeech-TTs.

Lizenz

PaddleSpeech wird unter der Lizenz Apache-2.0 bereitgestellt.

Stargazers im Laufe der Zeit

Expandieren

Zusätzliche Informationen

Version PaddleSpeech r1.4.2
Typ AI-Quellcode
Aktualisierungszeit 2025-08-20
Größe 19.75MB
Kommt von Github

Ähnliche Anwendungen

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03