ทั้งหมดเกี่ยวกับคำพูด
ที่เก็บนี้จัดเอกสารเอกสารการเรียนรู้รหัสเพื่อจุดประสงค์ในการทำความเข้าใจคำพูด มีที่เก็บอื่นสำหรับเครื่อง/การเรียนรู้อย่างลึกซึ้งที่นี่
ถึง DOS:
- จัดระเบียบดาว
- เพิ่มเอกสารเพิ่มเติม
- เอกสารที่ต้องอ่าน:
- คำพูด = t: ทรานสดิวเซอร์สำหรับ TTS และอื่น ๆ
TTS
TTS
- dc-tts [[กระดาษ]] [pytorch] [tensorflow]
- Lightspeech ของ Microsoft [[กระดาษ]] [รหัส]
- speechformer [[กระดาษ]] [รหัส]
- Tacotron ที่ไม่ได้รับผลกระทบ [Paper] [Pytorch]
- Tacotron 2 [[กระดาษ]] [รหัส]
- FCL-TACO2: FAST, ควบคุมและมีน้ำหนักเบาและน้ำหนักเบาของ TACOTRON2 [[กระดาษ]] [รหัส]
- Transformer TTS: การสังเคราะห์เสียงพูดด้วยเครือข่ายหม้อแปลง [[กระดาษ]] [รหัส]
- VITS: AutoEncoder แบบแปรผันตามเงื่อนไขพร้อมการเรียนรู้ที่เป็นปฏิปักษ์สำหรับการพูดแบบ text-to-to-to-to-to-to-to-to-to-to-to-to-to-to-end
- Reformer-TTS (การปรับตัวของนักปฏิรูปเป็น TTS) [รหัส]
TTS ตามพรอมต์ (ดู [ลิงก์])
การแปลงเสียง / การโคลนเสียง / ลำโพงฝัง
- Stargan-VC: การแปลงเสียงที่ไม่ใช่แบบขนานกับหลาย ๆ คนด้วยเครือข่ายฝ่ายตรงข้ามของดาวฤกษ์ [[กระดาษ]] [รหัส]
- การโคลนนิ่งด้วยเสียงประสาทด้วยตัวอย่างเสียง (Baidu) [[กระดาษ]] [รหัส]
- ASSEM-VC: การแปลงเสียงที่สมจริงโดยการประกอบเทคนิคการสังเคราะห์คำพูดที่ทันสมัย [[กระดาษ]] [รหัส]
- UNET-TTS: การปรับปรุงลำโพงที่มองไม่เห็นและการถ่ายโอนสไตล์ในการโคลนเสียงเดียว [กระดาษ] [รหัส]
- FragmentVC: การแปลงด้วยเสียงใด ๆ โดยการสกัดแบบ end-to-end และหลอมรวมชิ้นส่วนเสียงที่มีเนื้อละเอียดด้วยความสนใจ [[กระดาษ]] [รหัส]
- VectorQuantizedCPC: การเข้ารหัสการทำนายการทำนายความคมชัดของเวกเตอร์สำหรับการค้นพบหน่วยอะคูสติกและการแปลงเสียง [[กระดาษ]] [รหัส]
- COTATRON: ตัวเข้ารหัสคำพูดที่ถอดความสำหรับการแปลงด้วยเสียงใด ๆ โดยไม่ต้องใช้ข้อมูลแบบขนาน [[กระดาษ]] [รหัส]
- อีกครั้ง -VC: การแปลงเสียงแบบหนึ่งนัดโดยใช้คำแนะนำการเปิดใช้งานและการปรับอินสแตนซ์แบบปรับตัว [[กระดาษ]] [รหัส]
- AutoVC: การถ่ายโอนรูปแบบเสียงแบบ zero-shot ด้วยการสูญเสีย autoencoder เท่านั้น [[paper]] [รหัส]
- SC-GLOWTTS: โมเดลข้อความหลายลำโพงแบบหลายลำโพงที่มีประสิทธิภาพ [รหัส] [รหัส]
- ลำโพงลึก: ระบบฝังผู้พูดประสาทแบบ end-to-end [[กระดาษ]] [รหัส]
- VQMIVC: การแปลงเสียงแบบหนึ่ง-ช็อต (ใด ๆ ) [[กระดาษ]] [รหัส]
สไตล์ (อารมณ์, ฉันทลักษณ์)
- Smart-TTS TTS ทางอารมณ์เดียว [รหัส]
- Cross Speaker Transfer [[Paper]] [รหัส]
- Autopst: การถ่ายโอนสไตล์จังหวะโลกโดยไม่ต้องถอดความข้อความ [[กระดาษ]] [รหัส]
- การเปลี่ยนสเปกตรัมและฉันทลักษณ์สำหรับการแปลงเสียงทางอารมณ์ด้วยข้อมูลการฝึกอบรมที่ไม่ใช่แบบขนาน [[กระดาษ]] [รหัส]
- TTS stylization ของ Neural Reference ที่มีความสอดคล้องของวัฏจักรความสอดคล้อง [[กระดาษ]] [รหัส]
- การเรียนรู้การเป็นตัวแทนแฝงสำหรับการควบคุมสไตล์และการถ่ายโอนในการสังเคราะห์คำพูดแบบ end-to-end (tacotron-vae) [[กระดาษ]] [รหัส]
- การถ่ายโอนรูปแบบเสียง Neural Domain (NIPS 2017) [[กระดาษ]] [รหัส]
- Meta-Stylespeech และ Stylespeech [[Paper]] [Code]
- การถ่ายโอนอารมณ์ข้ามลำโพงโดยใช้การทำให้เป็นมาตรฐานของลำโพงและการฝึกอบรมกึ่งผู้ดูแลในการพูดแบบข้อความ [[กระดาษ]] [รหัส]
ข้ามภาษา
- TTS สลับรหัสแบบครบวงจรด้วยรูปแบบภาษาข้ามภาษา
- ภาษาจีนกลางและภาษาอังกฤษ
- ข้ามภาษาและหลายลำโพง
- พื้นฐาน: "การสร้างระบบ TTS แบบผสมภาษาที่มีข้อมูลภาษาเดียวเท่านั้น"
- การสร้างระบบ TTS ภาษาศาสตร์แบบผสมภาษาที่มีข้อมูลภาษาเดียวเท่านั้น
- การถ่ายโอนการเรียนรู้การควบคุมสไตล์และการสูญเสียการสร้างลำโพงใหม่สำหรับการพูดหลายภาษาหลายภาษากับการพูดภาษากับภาษาที่มีทรัพยากรต่ำ
- การสำรวจความไม่พอใจด้วย VQ-VAE [PAPER] [CODE] [CODE]
เพลงที่เกี่ยวข้อง
- การเรียนรู้ความงามในเพลง: การร้องเพลงด้วยเสียง Neural (ACL 2022) [[กระดาษ]] [รหัส]
- คำพูดเพื่อร้องเพลง (Interspeech 2020) [[กระดาษ]] [รหัส]
- Diffsinger: การร้องเพลงสังเคราะห์ด้วยเสียงผ่านกลไกการแพร่กระจายแบบตื้น (AAAI 2022) [[กระดาษ]] [รหัส]
- เครือข่ายการแปลเพลงสากล (ICLR 2019)
- ตู้เพลง: รุ่นกำเนิดสำหรับเพลง (openai) [กระดาษ] [รหัส]
ชุดเครื่องมือ
- IMS Toucan Speech Synthesis Toolkit [Paper] [Code]
- Crepe Pitch Tracker [รหัส]
- Beechbrain - เครื่องมือที่มีประโยชน์เพื่ออำนวยความสะดวกในการวิจัยคำพูด [รหัส]
นักร้อง
ความสนใจ
- ความสนใจในท้องถิ่น [รหัส]
ASR
- สู่ความเข้าใจภาษาพูดแบบ end-to-end
การจำแนกประเภทคำพูดการตรวจจับตัวกรอง ฯลฯ
- HTS-AT: หม้อแปลงเสียงโทเค็น-ความหมายแบบลำดับชั้นสำหรับการจำแนกเสียงและการตรวจจับ [[[กระดาษ]] [รหัส]
- ระบบเสียงของ Google AI [[กระดาษ]] [รหัส]
- ปรับปรุงการรับรู้อารมณ์การพูดแบบ end-to-end โดยใช้กลไกความสนใจตนเองและการเรียนรู้มัลติทาสก์ (Interspeech 2019) [[กระดาษ]] [รหัส]
- การรับรู้อารมณ์หลายรูปแบบด้วยคุณสมบัติการควบคุมตัวเองที่ใช้ตัวเองตาม Tranformer [[กระดาษ]] [รหัส]
- การรับรู้อารมณ์จากการพูดโดยใช้ WAV2VEC 2.0 EMBEDDINGS (Interspeech 2021) [[กระดาษ]] [รหัส]
- การสำรวจ WAV2VEC 2.0 ปรับแต่งเพื่อปรับปรุงการจดจำอารมณ์ความรู้สึก [[กระดาษ]] [รหัส]
- ทบทวนโมเดล CNN สำหรับการจำแนกเสียง [[กระดาษ]] [รหัส]
- การจดจำอารมณ์ที่ใช้ EEG โดยใช้ Sincnet [[Paper]] [รหัส]
การตรวจสอบลำโพง
- การรวมตัวกันที่เอาใจใส่สำหรับการตรวจสอบลำโพง (IEEE SLT 2021) [[กระดาษ]] [รหัส]
ภาษาศาสตร์
ชุดข้อมูล
- VGGSOUND: ชุดข้อมูลภาพและเสียงขนาดใหญ่ [[กระดาษ]] [รหัส]
- CSS10: ชุดคำพูดลำโพงเดี่ยว datsets สำหรับ 10 langauges [รหัส]
- IEMOCAP: ข้อมูลภาพและเสียง 12 ชั่วโมงกับนักแสดงชายและหญิง 10 คน [เว็บไซต์]
- voxceleb [repo]
การเพิ่มข้อมูล
- Audiomentations (การเพิ่มข้อมูลเสียงที่รวดเร็วใน Pytorch) [รหัส]
ผู้จัดตำแหน่ง
- Montreal Forced Aligner
ข้อมูล (ก่อน) การประมวลผล / การเสริม
- ข้อมูล (ก่อน) การประมวลผล
- การออกเสียงภาษาเกาหลีและการโรมันโดยใช้โมดูล Wiktionary Ko-Pron Lua [รหัส]
- การประมวลผลสัญญาณเสียง [รหัส]
- คุณสมบัติทางสัณฐานวิทยา (สำหรับกระดาษ "คุณสมบัติทางเสียงสำหรับการสังเคราะห์คำพูดหลายภาษา 0-shot") [[กระดาษ]] [รหัส]
- Smart-G2P (เปลี่ยนนิพจน์ภาษาอังกฤษและคันจิในประโยคเกาหลีเป็นภาษาเกาหลี) [รหัส]
- Kakao Grapheme เป็นแพ็คเกจการแปลงฟอนิมสำหรับ "แมนดาริน" [รหัส]
- เครื่องมือพูด Webaverse [รหัส]
การตรวจสอบ
- MCD [repo]
- รหัสใช้งานได้ แต่ฉันไม่แน่ใจว่ามันถูกต้องหรือไม่ หมายเลข MCD ค่อนข้างสูงเกินไปแม้แต่คู่ของเสียงที่คล้ายกัน
งานวิจัยอื่น ๆ ที่อาจช่วยได้
- ข้อความถึงการสังเคราะห์ภาพ
- Audiomae (masked autoencoders ที่ฟัง) [รหัส]
องค์กร
- deepmind [repo]
- Openai [repo]
- Club House: WeeklyArxivTalk [repo]
ที่เก็บอื่น ๆ เพื่ออ้างถึง - คำพูดรวม/ที่เกี่ยวข้อง
- รายชื่อนักวิจัยคำพูด [repo]
- Jackson-Kang [repo]
- ML ของ Rosinality [repo]
- [repo] ของ ivallesp
- คำพูดของ DDLBOJACK ก่อนหน้า [repo]
- การถ่ายโอนสไตล์ของ Fuzhenxin เป็นข้อความ [repo]
สื่อการเรียนรู้
- การประมวลผลการประมวลผลสัญญาณดิจิตอล [ลิงก์]
- คำบรรยายของ Ratsgo [ลิงก์]
- หลักสูตร YSDA ในการประมวลผลคำพูด [รหัส]
- NHN FORDATION วิดีโอ YouTube [ลิงก์]