ดาวน์โหลด PaddleSpeech - ดาวน์โหลดซอร์สโค้ด PaddleSpeech

PaddleSpeech

โค้ดแหล่งที่มา AI

PaddleSpeech r1.4.2

ดาวน์โหลด

(ภาษาจีนง่ายๆ | ภาษาอังกฤษ)

เริ่มต้นอย่างรวดเร็ว | เอกสาร | รายการรุ่น | หลักสูตร AISTUDIO | NAACL2022 รางวัลการสาธิตที่ดีที่สุด คนขี้เกียจ

Paddlespeech เป็นชุดเครื่องมือโอเพนซอร์ซบนแพลตฟอร์ม Paddlepaddle สำหรับงานที่สำคัญในการพูดและเสียงด้วยแบบจำลองที่ล้ำสมัยและมีอิทธิพล

Paddlespeech ได้รับรางวัล NAACL2022 Best Demo Award โปรดตรวจสอบบทความของเราเกี่ยวกับ Arxiv

การรู้จำเสียงพูด

อินพุตเสียง	ผลการจดจำ
	ฉันเคาะประตูที่ด้านโบราณของอาคาร
	ฉันคิดว่าสิ่งที่สำคัญที่สุดเกี่ยวกับการวิ่งคือทำให้ฉันมีสุขภาพที่ดี

การแปลคำพูด (ภาษาอังกฤษเป็นภาษาจีน)

อินพุตเสียง	ผลการแปล
	ฉันเคาะประตูโบราณของอาคารนี้

ข้อความเป็นคำพูด

ข้อความอินพุต	เสียงสังเคราะห์
ชีวิตเป็นเหมือนกล่องช็อคโกแลตคุณไม่มีทางรู้ว่าคุณจะได้อะไร
สวัสดีตอนเช้าวันนี้คือ 2020/10/29 โดยมีอุณหภูมิต่ำสุด -3 ° C
จีจิจีรวบรวมไก่และไก่เป็นไก่หนาม ไก่หนามหิว Ji Ji และ Ji Ji ช่วยไก่ เมื่อไก่ผสมพวกเขาจะเข้าร่วมโดยจีจี จีจีเร็วมากที่จะตีไก่ไก่เป็นเรื่องเร่งด่วนและคนโกงก็เร่งด่วนจีจิเป็นกังวลและจากนั้นเขาก็ตีไก่ จีจีเร็วที่จะตีไก่ เมื่อไก่ตายแล้วจีจีก็ตื่นเต้นและเขาเขียน "จีจิของไก่เคาะ"
สวัสดีทุกคนฉันเป็นครูเสมือนจริงของนกแก้ว มาอ่านบทกวีกันเถอะ ฉันและสายลมฤดูใบไม้ผลิกำลังผ่านไป คุณใช้น้ำในฤดูใบไม้ร่วงเพื่อนำกาแล็กซี่
IKEA ไม่จำเป็นสำหรับคุณที่จะพูดคุย แต่สิ่งที่คุณพูดจะกลายเป็นงานนำเสนอและคำสารภาพ
แต่ละประเทศมีเพลงชาติของตัวเอง

สำหรับเสียงที่สังเคราะห์ขึ้นโปรดดูตัวอย่างการพูดข้อความเป็นคำพูดของ Paddlespeech

การฟื้นฟูเครื่องหมายวรรคตอน

ข้อความอินพุต	ข้อความเอาต์พุต
วันนี้อากาศดีมาก คุณมีเวลาในตอนบ่ายหรือไม่? ฉันอยากขอให้คุณทานอาหารเย็นด้วยกัน	วันนี้อากาศดีจริงๆ! คุณว่างตอนบ่ายหรือไม่? ฉันอยากจะขอให้คุณทานอาหารด้วยกัน

คุณสมบัติ

ผ่านการใช้งานที่ง่ายต่อการใช้งานมีประสิทธิภาพยืดหยุ่นและปรับขนาดได้วิสัยทัศน์ของเราคือการเพิ่มขีดความสามารถทั้งการใช้งานอุตสาหกรรมและการวิจัยเชิงวิชาการรวมถึงการฝึกอบรมการอนุมานและการทดสอบโมดูลและกระบวนการปรับใช้ เพื่อความเฉพาะเจาะจงมากขึ้นคุณสมบัติชุดเครื่องมือนี้ได้ที่:

- ใช้งานง่าย : อุปสรรคต่ำในการติดตั้ง, CLI, เซิร์ฟเวอร์และเซิร์ฟเวอร์สตรีมมิ่งพร้อมใช้งานเพื่อเริ่มต้นการเดินทางของคุณอย่างรวดเร็ว
- สอดคล้องกับล้ำสมัย : เราให้บริการรุ่นที่มีน้ำหนักสูงและมีน้ำหนักเบาสูงและยังมีเทคโนโลยีที่ทันสมัย
- สตรีมมิ่งระบบ ASR และ TTS : เราให้บริการ ASR ที่พร้อมสตรีมมิ่งและระบบสตรีมมิ่ง TTS
- ส่วนหน้าของจีนตามกฎ : ส่วนหน้าของเรามีการทำให้เป็นปกติของข้อความและกราฟเป็น phoneme (G2P รวมถึง Polyphone และ Tone Sandhi) ยิ่งกว่านั้นเราใช้กฎภาษาศาสตร์ที่กำหนดเองเพื่อปรับบริบทของจีน
- ความหลากหลายของฟังก์ชั่นที่มีความสำคัญทั้งอุตสาหกรรมและสถาบันการศึกษา :
- ️ การใช้งานเสียงที่สำคัญ : ชุดเครื่องมือนี้มีฟังก์ชั่นเสียงเช่นการรู้จำเสียงพูดอัตโนมัติการสังเคราะห์ข้อความเป็นคำพูดการตรวจสอบลำโพงการระบุคำหลักการจำแนกเสียงและการแปลคำพูด ฯลฯ ฯลฯ
- - การรวมโมเดลและชุดข้อมูลกระแสหลัก : ชุดเครื่องมือใช้โมดูลที่มีส่วนร่วมในไปป์ไลน์ทั้งหมดของงานพูดและใช้ชุดข้อมูลกระแสหลักเช่น Librispeech, LJSpeech, Aishell, CSMSC ฯลฯ ดูรายการรุ่นสำหรับรายละเอียดเพิ่มเติม
- - แอปพลิเคชั่นโมเดลแบบเรียงซ้อน : ในฐานะที่เป็นส่วนขยายของงานเสียงแบบดั้งเดิมทั่วไปเรารวมเวิร์กโฟลว์ของงานแปลก ๆ เข้ากับสาขาอื่น ๆ เช่นการประมวลผลภาษาธรรมชาติ (NLP) และคอมพิวเตอร์วิสัยทัศน์ (CV)

อัปเดตล่าสุด

- 2023.05.31: เพิ่ม WAVLM ASR-EN, การปรับแต่ง WAVLM สำหรับ ASR บน Librispeech
- 2023.05.18: เพิ่ม Squeezeformer, Squeezeformer Training สำหรับ ASR บน Aishell
- 2023.05.04: เพิ่ม Hubert ASR-EN, Hubert Fine-Tuning สำหรับ ASR บน Librispeech
⚡ 2023.04.28: แก้ไขเทนเซอร์ 0-D ด้วยการอัพเกรดของ PaddlePaddle == 2.5 ปัญหาการปรับเปลี่ยนเทนเซอร์ 0-D ได้รับการแก้ไขแล้ว
- 2023.04.25: เพิ่มแอมป์สำหรับ U2 Conformer
2023.04.06: เพิ่มไฟล์คำบรรยาย (รูปแบบ .SRT) ตัวอย่างการสร้าง
2023.03.14: เพิ่ม SVS (การสังเคราะห์เสียงร้องเพลง) ด้วยชุดข้อมูล OpenCpop รวมถึง diffsinger, pwgan และ hifigan, เอฟเฟกต์ได้รับการปรับให้เหมาะสมอย่างต่อเนื่อง
- 2023.03.09: เพิ่ม WAV2VEC2ASR-EN
- 2023.03.07: เพิ่ม TTS ARM LINUX C ++ DEMO (พร้อมส่วนหน้าข้อความภาษาจีน C ++)
2023.03.03 เพิ่มการแปลงเสียง Starganv2-VC สังเคราะห์ไปป์ไลน์
- 2023.02.16: เพิ่ม TTS กวางตุ้ง
2023.01.10: เพิ่มรหัสสวิตช์ ASR CLI และการสาธิต
- 2023.01.06: เพิ่มสูตรการสลับรหัส ASR TAL_CS
- 2022.12.02: เพิ่มไปป์ไลน์การทำนายฉันทลักษณ์แบบครบวงจร (รวมถึงการใช้ฉลากฉันทลักษณ์ในรูปแบบอะคูสติก)
- 2022.11.30: เพิ่ม TTS Android Demo
- 2022.11.28: การสาธิต PP-TTS และ PP-ASR มีอยู่ใน Aistudio และเว็บไซต์ทางการของ Paddlepaddle
- 2022.11.18: เพิ่ม Whisper CLI และ Demos รองรับการจดจำภาษาและการแปลหลายภาษา
2022.11.18: เพิ่ม WAV2VEC2 CLI และ DEMOS รองรับ ASR และการสกัดคุณลักษณะ
- 2022.11.17: เพิ่มเสียงชายสำหรับ TTS
2022.11.07: เพิ่ม U2/U2 ++ C ++ การปรับใช้ ASR ที่มีประสิทธิภาพสูง
- 2022.11.01: เพิ่มความสูญเสียของฝ่ายตรงข้ามสำหรับ TTS ผสมภาษาอังกฤษจีน
2022.10.26: เพิ่มการทำนายฉันทลักษณ์สำหรับ TTS
- 2022.10.21: เพิ่ม SSML สำหรับส่วนหน้าข้อความภาษาจีน TTS
- 2022.10.11: เพิ่ม WAV2VEC2ASR-EN, WAV2VEC2.0 การปรับแต่ง ASR บน Librispeech
2022.09.26: เพิ่มการโคลนเสียง, TTS Finetune และ Ernie-Sat ในการสาธิตเว็บ Paddlespeech
⚡ 2022.09.09: เพิ่มตัวอย่างการโคลน Aishell-3 ด้วยเครื่องเข้ารหัสลำโพง ECAPA-TDNN
⚡ 2022.08.25: ปล่อยตัวอย่าง TTS Finetune
2022.08.22: เพิ่มโมเดล Ernie-Sat: Ernie-Sat-VCTK, Ernie-Sat-Aishell3, Ernie-Sat-Zh_en
2022.08.15: เพิ่ม G2PW ลงในส่วนหน้าข้อความภาษาจีน TTS
2022.08.09: ปล่อย TTS ภาษาอังกฤษแบบผสมภาษาจีน
⚡ 2022.08.03: เพิ่ม onnxruntime อนุมานสำหรับ TTS CLI
- 2022.07.18: การเปิดตัว: VITS-CSMSC, VITS-AISHELL3, VITS-VITS
- 2022.06.22: รุ่น TTS ทั้งหมดรองรับรูปแบบ ONNX
- 2022.06.17: เพิ่มการสาธิตเว็บ Paddlespeech
- 2022.05.13: ปล่อย PP-ASR, PP-TTS, PP-VPR
- 2022.05.06: PaddleSpeech Streaming Server พร้อมใช้งานสำหรับ Streaming ASR พร้อม Punctuation Restoration และการ Token Timestamp และ Text-to-Speech
- 2022.05.06: PaddleSpeech Server พร้อมใช้งานสำหรับ Audio Classification Automatic Speech Recognition และ Text-to-Speech Speaker Verification และ Punctuation Restoration
- 2022.03.28: PaddleSpeech CLI มีให้สำหรับ Speaker Verification
- 2021.12.10: PaddleSpeech CLI มีให้สำหรับ Audio Classification , Automatic Speech Recognition , Speech Translation (English to Chinese) และ Text-to-Speech

ชุมชน

สแกนรหัส QR ด้านล่างด้วย WeChat ของคุณคุณสามารถเข้าถึงกลุ่มแลกเปลี่ยนทางเทคนิคอย่างเป็นทางการและรับโบนัส (สื่อการเรียนรู้มากกว่า 20GB เช่นเอกสารรหัสและวิดีโอ) และลิงก์สดของบทเรียน หวังว่าจะมีส่วนร่วมของคุณ

การติดตั้ง

เราขอแนะนำให้ผู้ใช้ของเราติดตั้ง Paddlespeech ใน Linux ด้วย Python> = 3.8 และ Paddlepaddle <= 2.5.1 ไม้พายรุ่นใหม่บางรุ่นไม่สนับสนุนการปรับตัวใน Paddlespeech ดังนั้นปัจจุบันมีเพียงรุ่น 2.5.1 และก่อนหน้านี้เท่านั้น

บทนำการพึ่งพา

gcc> = 4.8.5
Paddlepaddle <= 2.5.1
Python> = 3.8
การสนับสนุน OS: Linux (แนะนำ), Windows, Mac OSX

Paddlespeech ขึ้นอยู่กับ Paddlepaddle สำหรับการติดตั้งโปรดดูเว็บไซต์อย่างเป็นทางการของ Paddlepaddle และเลือกตามเครื่องของคุณเอง นี่คือตัวอย่างของเวอร์ชัน CPU

pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple

นอกจากนี้คุณยังสามารถระบุเวอร์ชันของ PaddlePaddle หรือติดตั้งเวอร์ชันพัฒนาได้

 # install 2.4.1 version. Note, 2.4.1 is just an example, please follow the minimum dependency of paddlepaddle for your selection
pip install paddlepaddle==2.4.1 -i https://mirror.baidu.com/pypi/simple
# install develop version
pip install paddlepaddle==0.0.0 -f https://www.paddlepaddle.org.cn/whl/linux/cpu-mkl/develop.html

มีวิธีการติดตั้งอย่างรวดเร็วสองวิธีสำหรับ Paddlespeech หนึ่งคือการติดตั้ง PIP และอีกวิธีหนึ่งคือการรวบรวมซอร์สโค้ด (แนะนำ)

การติดตั้ง PIP

pip install pytest-runner
pip install paddlespeech

การรวบรวมซอร์สโค้ด

git clone https://github.com/PaddlePaddle/PaddleSpeech.git
cd PaddleSpeech
pip install pytest-runner
pip install .

สำหรับปัญหาการติดตั้งเพิ่มเติมเช่นสภาพแวดล้อม conda, ขึ้นอยู่กับ Librosa, ปัญหา GCC, การติดตั้ง Kaldi ฯลฯ คุณสามารถอ้างถึงเอกสารการติดตั้งนี้ หากคุณพบปัญหาระหว่างการติดตั้งคุณสามารถฝากข้อความไว้ใน #2150 และค้นหาปัญหาที่เกี่ยวข้อง

เริ่มต้นอย่างรวดเร็ว

นักพัฒนาสามารถลองใช้โมเดลของเราด้วยบรรทัดคำสั่ง Paddlespeech หรือ Python เปลี่ยน --input เพื่อทดสอบเสียง/ข้อความของคุณเองและรองรับเสียงรูปแบบ 16K WAV

คุณสามารถสัมผัสได้อย่างรวดเร็วในสตูดิโอ AI หรือไม่? การสาธิต Paddlespeech API

ดาวน์โหลดตัวอย่างเสียง

wget -c https://paddlespeech.bj.bcebos.com/PaddleAudio/zh.wav
wget -c https://paddlespeech.bj.bcebos.com/PaddleAudio/en.wav

การรู้จำเสียงพูดอัตโนมัติ

（คลิกเพื่อขยาย） การจดจำคำพูดโอเพ่นซอร์ส

ประสบการณ์บรรทัดคำสั่ง

paddlespeech asr --lang zh --input zh.wav

ประสบการณ์ Python API

 > >> from paddlespeech . cli . asr . infer import ASRExecutor
> >> asr = ASRExecutor ()
> >> result = asr ( audio_file = "zh.wav" )
> >> print ( result )
我认为跑步最重要的就是给我带来了身体健康

ข้อความเป็นคำพูด

การสังเคราะห์คำพูดโอเพ่นซอร์ส

เอาท์พุทอัตราตัวอย่าง 24K WAV รูปแบบเสียง

ประสบการณ์บรรทัดคำสั่ง

paddlespeech tts --input "你好，欢迎使用百度飞桨深度学习框架！ " --output output.wav

ประสบการณ์ Python API

 > >> from paddlespeech . cli . tts . infer import TTSExecutor
> >> tts = TTSExecutor ()
> >> tts ( text = "今天天气十分不错。" , output = "output.wav" )

คุณสามารถสัมผัสกับ HuggingFace Space Demo

การจำแนกเสียง

เครื่องมือการจำแนกเสียงแบบเปิดโดเมน

รูปแบบการจำแนกประเภทเสียงตาม 527 หมวดหมู่ของชุดข้อมูลเสียง

ประสบการณ์บรรทัดคำสั่ง

paddlespeech cls --input zh.wav

ประสบการณ์ Python API

 > >> from paddlespeech . cli . cls . infer import CLSExecutor
> >> cls = CLSExecutor ()
> >> result = cls ( audio_file = "zh.wav" )
> >> print ( result )
Speech 0.9027186632156372

การสกัดด้วยเสียง

เครื่องมือสกัดเสียงเกรดอุตสาหกรรม

ประสบการณ์บรรทัดคำสั่ง

paddlespeech vector --task spk --input zh.wav

ประสบการณ์ Python API

 > >> from paddlespeech . cli . vector import VectorExecutor
> >> vec = VectorExecutor ()
> >> result = vec ( audio_file = "zh.wav" )
> >> print ( result ) # 187维向量
[ - 0.19083306   9.474295   - 14.122263    - 2.0916545    0.04848729
   4.9295826    1.4780062    0.3733844   10.695862     3.2697146
  - 4.48199     - 0.6617882   - 9.170393   - 11.1568775   - 1.2358263 ...]

การฟื้นฟูเครื่องหมายวรรคตอน

การกู้คืนเครื่องหมายวรรคตอนข้อความอย่างรวดเร็วทำงานร่วมกับรุ่น ASR

ประสบการณ์บรรทัดคำสั่ง

paddlespeech text --task punc --input 今天的天气真不错啊你下午有空吗我想约你一起去吃饭

ประสบการณ์ Python API

 > >> from paddlespeech . cli . text . infer import TextExecutor
> >> text_punc = TextExecutor ()
> >> result = text_punc ( text = "今天的天气真不错啊你下午有空吗我想约你一起去吃饭" )
今天的天气真不错啊！你下午有空吗？我想约你一起去吃饭。

การแปลคำพูด

เครื่องมือแปลการพูดภาษาอังกฤษแบบ end-to-end ถึงภาษาจีน

ใช้เครื่องมือที่เกี่ยวข้องกับ Kaldi ที่คอมไพล์ล่วงหน้ามีเพียงประสบการณ์สนับสนุนในระบบ Ubuntu

ประสบการณ์บรรทัดคำสั่ง

paddlespeech st --input en.wav

ประสบการณ์ Python API

 > >> from paddlespeech . cli . st . infer import STExecutor
> >> st = STExecutor ()
> >> result = st ( audio_file = "en.wav" )
[ '我 在 这栋 建筑 的 古老 门上 敲门 。' ]

เซิร์ฟเวอร์เริ่มต้นอย่างรวดเร็ว

นักพัฒนาสามารถลองใช้เซิร์ฟเวอร์คำพูดของเราด้วยบรรทัดคำสั่งเซิร์ฟเวอร์ Paddlespeech

คุณสามารถลองได้อย่างรวดเร็วใน AI Studio (แนะนำ): SPUINDSERVER

เริ่มเซิร์ฟเวอร์

paddlespeech_server start --config_file ./demos/speech_server/conf/application.yaml

เข้าถึงบริการจดจำคำพูด

paddlespeech_client asr --server_ip 127.0.0.1 --port 8090 --input input_16k.wav

เข้าถึงข้อความไปยังบริการพูด

paddlespeech_client tts --server_ip 127.0.0.1 --port 8090 --input "您好，欢迎使用百度飞桨语音合成服务。 " --output output.wav

เข้าถึงบริการการจำแนกเสียง

paddlespeech_client cls --server_ip 127.0.0.1 --port 8090 --input input.wav

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับบรรทัดคำสั่งเซิร์ฟเวอร์โปรดดู: การสาธิตเซิร์ฟเวอร์คำพูด

เริ่มต้นสตรีมมิ่งเซิร์ฟเวอร์

นักพัฒนาสามารถลองสตรีมมิ่ง ASR และสตรีมมิ่งเซิร์ฟเวอร์ TTS

เริ่มสตรีมมิ่งเซิร์ฟเวอร์การรู้จำเสียงพูด

 paddlespeech_server start --config_file ./demos/streaming_asr_server/conf/application.yaml

เข้าถึงบริการการรู้จำเสียงพูดสตรีมมิ่ง

 paddlespeech_client asr_online --server_ip 127.0.0.1 --port 8090 --input input_16k.wav

เริ่มสตรีมข้อความไปยังเซิร์ฟเวอร์คำพูด

 paddlespeech_server start --config_file ./demos/streaming_tts_server/conf/tts_online_application.yaml

เข้าถึงข้อความสตรีมมิ่งไปยังบริการพูด

 paddlespeech_client tts_online --server_ip 127.0.0.1 --port 8092 --protocol http --input "您好，欢迎使用百度飞桨语音合成服务。" --output output.wav

สำหรับข้อมูลเพิ่มเติมโปรดดู: สตรีมมิ่ง ASR และสตรีมมิ่ง TTS

รายชื่อรุ่น

Paddlespeech รองรับชุดของรุ่นที่ได้รับความนิยมมากที่สุด พวกเขาสรุปไว้ในรุ่นที่ปล่อยออกมาและแนบมากับรุ่นที่มีการปรับแต่งที่มีอยู่

คำพูดเป็นข้อความ ประกอบด้วย โมเดลอะคูสติก โมเดลภาษา และ การแปลคำพูด พร้อมรายละเอียดต่อไปนี้:

ประเภทโมดูลคำพูดเป็นข้อความ	ชุดข้อมูล	ประเภทรุ่น	ตัวอย่าง
การพูดใหม่	ไอชิล	DeepSpeech2 RNN + Model	deepppeech2-aishell
	ไอชิล	แบบจำลองความสนใจตามหม้อแปลง	u2.transformer.conformer-aishell
	librispeech	แบบจำลองความสนใจตามหม้อแปลง	deepppeech2-librispireech/transformer.conformer.u2-librispireech/transformer.conformer.u2-kaldi-Librispirech
	เวลา	การสตรีมแบบครบวงจรและการไม่สตรีมสองครั้ง	U2-Timit
การจัดตำแหน่ง	thchs30	MFA	mfa-thchs30
รูปแบบภาษา	รูปแบบภาษา ngram		เคนลม์
การแปลคำพูด (ภาษาอังกฤษเป็นภาษาจีน)	ted en-zh	หม้อแปลง + ASR MTL	ทำด้วยหม้อแปลง
การแปลคำพูด (ภาษาอังกฤษเป็นภาษาจีน)	ted en-zh	ไขมัน + หม้อแปลง + ASR MTL	ไขมัน

ข้อความถึงการพูด ใน Paddlespeech ส่วนใหญ่มีสามโมดูล: ส่วนหน้าข้อความ , โมเดลอะคูสติก และ Vocoder โมเดลอะคูสติกและโมเดล Vocoder มีการระบุไว้ดังนี้:

ประเภทโมดูลข้อความเป็นคำพูด	ประเภทรุ่น	ชุดข้อมูล	ตัวอย่าง
ข้อความส่วนหน้า			TN/G2P
รูปแบบอะคูสติก	Tacotron2	ljSpeech/CSMSC	tacotron2-ljspeech/tacotron2-csmsc
	Transformer TTS	ljspeech	Transformer-ljspeech
	Speedyspeech	CSMSC	SpeedySpeech-CSMSC
	FastSpeech2	LJSpeech / VCTK / CSMSC / AISHELL-3 / ZH_EN / FIEDUNE	FastSpeech2-LJSpeech/FastSpeech2-VCTK/FastSpeech2-CSMSC/FastSpeech2-Aishell3/FastSpeech2-ZH_EN/FastSpeech2-Finenetune
	เออร์นี่-แซท	VCTK / AISHELL-3 / ZH_EN	ernie-sat-vctk / ernie-sat-aishell3 / ernie-sat-zh_en
	ความแตกต่าง	opencpop	diffsinger-opencpop
ผู้ร้อง	การไหลของคลื่น	ljspeech	waveflow-ljspeech
	Wavegan คู่ขนาน	LJSpeech / VCTK / CSMSC / AISHELL-3 / OPENCPOP	pwgan-ljspeech / pwgan-vctk / pwgan-csmsc / pwgan-aishell3 / pwgan-opencpop
	Multi Band Melgan	CSMSC	Multi Band Melgan-CSMSC
	สไตล์ Melgan	CSMSC	สไตล์ melgan-csmsc
	ไฮเฟก้า	LJSpeech / VCTK / CSMSC / AISHELL-3 / OPENCPOP	Hifigan-ljspeech / hifigan-vctk / hifigan-csmsc / hifigan-aishell3 / hifigan-opencpop
	เวิร์นน์	CSMSC	wavernn-csmsc
การโคลนนิ่งเสียง	GE2E	Librispeech ฯลฯ	GE2E
	SV2TTS (GE2E + TACOTRON2)	aishell-3	VC0
	sv2tts (ge2e + fastspeech2)	aishell-3	VC1
	SV2TTS (ECAPA-TDNN + FastSpeech2)	aishell-3	VC2
	ge2e + vits	aishell-3	VITS-VC
end-end-end	เข้าด้วยกัน	CSMSC / AISHELL-3	VITS-CSMSC/VITS-AISHELL3

การจำแนกเสียง

งาน	ชุดข้อมูล	ประเภทรุ่น	ตัวอย่าง
การจำแนกเสียง	ESC-50	เพนน์	pann-esc50

การระบุคำหลัก

งาน	ชุดข้อมูล	ประเภทรุ่น	ตัวอย่าง
การระบุคำหลัก	เฮ้	MDTC	mdtc-hey-snips

การตรวจสอบลำโพง

งาน	ชุดข้อมูล	ประเภทรุ่น	ตัวอย่าง
การตรวจสอบลำโพง	voxceleb1/2	ecapa-tdnn	ECAPA-TDNN-VOXCELEB12

ลำโพง diarization

งาน	ชุดข้อมูล	ประเภทรุ่น	ตัวอย่าง
ลำโพง diarization	Ami	ECAPA-TDNN + AHC / SC	ecapa-tdnn-ami

การฟื้นฟูเครื่องหมายวรรคตอน

งาน	ชุดข้อมูล	ประเภทรุ่น	ตัวอย่าง
การฟื้นฟูเครื่องหมายวรรคตอน	IWLST2012_ZH	เออร์นี่เป็นเส้นตรง	IWSLT2012-PUNCH0

เอกสาร

โดยปกติแล้วคำพูด Sota, Audio Sota และเพลง Sota ให้ภาพรวมของหัวข้อวิชาการที่ร้อนแรงในพื้นที่ที่เกี่ยวข้อง เพื่อมุ่งเน้นไปที่งานใน Paddlespeech คุณจะพบว่าแนวทางต่อไปนี้มีประโยชน์ในการต่อสู้กับแนวคิดหลัก

การติดตั้ง
เริ่มต้นอย่างรวดเร็ว
การสาธิตบางอย่าง
บทเรียน
- การรู้จำเสียงพูดอัตโนมัติ
  - การแนะนำ
  - การเตรียมข้อมูล
  - ngram lm
- ข้อความเป็นคำพูด
  - การแนะนำ
  - การใช้งานขั้นสูง
  - ส่วนหน้าข้อความตามกฎของจีน
  - ทดสอบตัวอย่างเสียง
- การตรวจสอบลำโพง
  - การค้นหาเสียง
  - การตรวจสอบลำโพง
- การจำแนกเสียง
- การแปลคำพูด
- เซิร์ฟเวอร์คำพูด
รุ่นที่ปล่อยออกมา
- คำพูดเป็นข้อความ
- ข้อความเป็นคำพูด
- การจำแนกเสียง
- การตรวจสอบลำโพง
- ลำโพง diarization
- การฟื้นฟูเครื่องหมายวรรคตอน
ชุมชน
ยินดีต้อนรับสู่การมีส่วนร่วม
ใบอนุญาต

โมดูลข้อความเป็นคำพูดเดิมเรียกว่า Parakeet และตอนนี้รวมเข้ากับที่เก็บนี้ หากคุณมีความสนใจในการวิจัยเชิงวิชาการเกี่ยวกับงานนี้โปรดดูภาพรวมการวิจัย TTS นอกจากนี้เอกสารนี้เป็นแนวทางที่ดีสำหรับส่วนประกอบไปป์ไลน์

ตัวอย่าง

Paddlebobo: ใช้ Paddlespeech TTS เพื่อสร้างเสียงมนุษย์เสมือนจริง

วิดีโอสาธิต Paddlespeech
Vtubertalk: ใช้ Paddlespeech TTS และ ASR เพื่อโคลนเสียงจากวิดีโอ

การอ้างอิง

หากต้องการอ้างอิง Paddlespeech สำหรับการวิจัยโปรดใช้รูปแบบต่อไปนี้

 @inproceedings{zhang2022paddlespeech,
    title = {PaddleSpeech: An Easy-to-Use All-in-One Speech Toolkit},
    author = {Hui Zhang, Tian Yuan, Junkun Chen, Xintong Li, Renjie Zheng, Yuxin Huang, Xiaojie Chen, Enlei Gong, Zeyu Chen, Xiaoguang Hu, dianhai yu, Yanjun Ma, Liang Huang},
    booktitle = {Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies: Demonstrations},
    year = {2022},
    publisher = {Association for Computational Linguistics},
}

@InProceedings{pmlr-v162-bai22d,
  title = {{A}$^3${T}: Alignment-Aware Acoustic and Text Pretraining for Speech Synthesis and Editing},
  author = {Bai, He and Zheng, Renjie and Chen, Junkun and Ma, Mingbo and Li, Xintong and Huang, Liang},
  booktitle = {Proceedings of the 39th International Conference on Machine Learning},
  pages = {1399--1411},
  year = {2022},
  volume = {162},
  series = {Proceedings of Machine Learning Research},
  month = {17--23 Jul},
  publisher = {PMLR},
  pdf = {https://proceedings.mlr.press/v162/bai22d/bai22d.pdf},
  url = {https://proceedings.mlr.press/v162/bai22d.html},
}

@inproceedings{zheng2021fused,
  title={Fused acoustic and text encoding for multimodal bilingual pretraining and speech translation},
  author={Zheng, Renjie and Chen, Junkun and Ma, Mingbo and Huang, Liang},
  booktitle={International Conference on Machine Learning},
  pages={12736--12746},
  year={2021},
  organization={PMLR}
}

มีส่วนร่วมใน Paddlespeech

คุณยินดีที่จะส่งคำถามในการอภิปรายและรายงานข้อผิดพลาดในประเด็น! นอกจากนี้เราขอขอบคุณอย่างมากหากคุณยินดีที่จะมีส่วนร่วมในโครงการนี้!

ผู้มีส่วนร่วม

การรับทราบ

ขอบคุณมากสำหรับ Highcwu สำหรับการเพิ่ม VITS-AISHELL3 และ VITS-VITS-VITS ตัวอย่าง
ขอบคุณมากสำหรับ David-95 สำหรับการแก้ไขข้อผิดพลาดแบบหลายจุดมีส่วนร่วมในโปรแกรมและข้อมูลหลายรายการและการเพิ่ม SSML สำหรับ TTS TEXT TEXT FRODEND
ขอบคุณมากสำหรับ Barrykcl สำหรับการปรับปรุงส่วนหน้า TTS Chises ตาม G2PW
ขอบคุณมากสำหรับ yeyupiaoling/ppasr/paddlepaddle-deepspeech/voiceprintrecognition-paddlepaddle/audioclassification-paddlepaddle สำหรับความสนใจหลายปีคำแนะนำที่สร้างสรรค์และความช่วยเหลือที่ดี
ขอบคุณมากสำหรับ mymagicpower สำหรับการใช้ Java ของ ASR เมื่อไฟล์เสียงสั้นและยาว
ขอบคุณมากสำหรับ Jiehangxie/Paddlebobo สำหรับการพัฒนา Virtual Uploader (VUP)/Virtual YouTuber (VTuber) ด้วยฟังก์ชัน Paddlespeech TTS
ขอบคุณมากสำหรับ 745165806/PaddlespeechTask สำหรับการสนับสนุนรูปแบบการฟื้นฟูเครื่องหมายวรรคตอน
ขอบคุณมากสำหรับ KSLZ สำหรับเอกสารเสริมภาษาจีน
ขอบคุณมากสำหรับ AWMMMM สำหรับการสนับสนุน FastSpeech2 Aishell3 Conformer Model ที่ได้รับการฝึกฝน
ขอบคุณมากสำหรับ phecda-xu/paddledubbing สำหรับการพัฒนาเครื่องมือการพากย์ด้วย GUI ตามรุ่น Paddlespeech TTS
ขอบคุณมากสำหรับ Jerryuho/Vtubertalk สำหรับการพัฒนาเครื่องมือ GUI ตาม Paddlespeech TTS และรหัสสำหรับการสร้างชุดข้อมูลจากวิดีโอที่ใช้ Paddlespeech ASR
ขอบคุณมากสำหรับ VPEGASUS/XUESEBOT สำหรับการพัฒนา RASA Chatbot ซึ่งสามารถพูดและฟังได้ด้วย Paddlespeech
ขอบคุณมากสำหรับ Chenkui164/fastasr สำหรับการใช้ C ++ การอนุมานของ Paddlespeech ASR
ขอบคุณมากสำหรับ Heyudage/voicetyping สำหรับการใช้เครื่องมือพิมพ์เสียงแบบเรียลไทม์ของบริการสตรีมมิ่ง Paddlespeech ASR
ขอบคุณมากสำหรับ Escaticzheng/PS3.9wheel-install สำหรับล้อ Python3.9 prebuilt สำหรับการติดตั้ง Paddlespeech ใน Windows โดยไม่ต้องใช้ Viusal Studio นอกจากนี้ Paddlespeech ยังขึ้นอยู่กับที่เก็บโอเพนซอร์สจำนวนมาก ดูข้อมูลอ้างอิงสำหรับข้อมูลเพิ่มเติม
ขอบคุณมากสำหรับ chinobing/fastapi-paddlespeech-audio-to-text สำหรับการแปลงเสียงเป็นข้อความตาม fastapi และ paddlespeech
ขอบคุณมากสำหรับ Misteo/Pallas-bot สำหรับบอท QQ ขึ้นอยู่กับ Paddlespeech TTS