รายการกระดาษและโครงการเกี่ยวกับ การสังเคราะห์คำพูด ที่ทันสมัย ข้อความเป็นคำพูด (TTS) การสังเคราะห์เสียงร้องเพลง (SVS) , การแปลงเสียง (VC) , การแปลงเสียงร้องเพลง (SVC) และผลงานที่น่าสนใจที่ เกี่ยวข้อง (เช่น การสังเคราะห์เพลง การถอดเสียง เพลง อัตโนมัติ
ยินดีต้อนรับสู่ PR หรือติดต่อฉันทางอีเมล ([email protected]) สำหรับการอัปเดตเอกสารและผลงาน
IEEE/ACM TASLP, IEEE JSTSP, JSLHR, IEEE TPAMI
Neuraips, ICLR, ICML, IJAI, AAAI, ACL, NAACL, EMNLP, ISMIR, ACM MM, ICASSP, Interspeech, ICME
ASRU, SLT
[ 2022 ]
Learn2Sing 2.0: SVS ผู้บรรยายเป้าหมายที่ใช้ข้อมูลร่วมกันโดยการเรียนรู้จากการร้องเพลงจากอาจารย์สอน | Interspeech 2022 | ✔Code | การสาธิต
กรอบการเป็นตัวแทนลำโพงแบบลำดับชั้นสำหรับการแปลงเสียงร้องเพลงหนึ่งนัด | Interspeech 2022 | การสาธิต
การปรับปรุงการเปลี่ยนเสียงการร้องเพลงด้วยการร้องเพลงด้วยการสร้างเสียงด้วยสัญญาณฮาร์มอนิก ICASSP 2022 | การสาธิต
[ 2021 ]
DiffSVC: โมเดลความน่าจะเป็นในการแพร่กระจายสำหรับการแปลงเสียงการร้องเพลง | Asru 2021 | การสาธิต
การย่อยสลายเสียงร้องเพลงที่ควบคุมได้และตีความได้ผ่านแอสเซม-วีซี | Neurips 2021 Workshop | การสาธิต
ไปสู่การแปลงเสียงร้องเพลงที่มีความเที่ยงตรงสูงด้วยการอ้างอิงเสียงและการเข้ารหัสการทำนายแบบตรงกันข้าม 2021/10 | การสาธิต
FastSVC: การแปลงเสียงร้องเพลงข้ามโดเมนอย่างรวดเร็วพร้อมการปรับเชิงเส้นที่ชาญฉลาด ICME 2021 | การสาธิต
การแปลงเสียงร้องเพลงที่ใช้ Wavenet โดยไม่ได้รับการดูแลโดยใช้การเพิ่มระดับเสียงและวิธีการสองเฟส | 2021/07 | ✔Code | การสาธิต
[ 2020 ]
การแปลงด้วยเสียงร้องเพลง Ismir 2020 | การสาธิต
การออกเสียงด้านหลังของการเปลี่ยนเสียงการร้องเพลงด้วยการร้องเพลงด้วยการฝึกฝนการฝึกฝน 2020/12 | การสาธิต รหัสที่ไม่เป็นทางการ
DURIAN-SC: ระยะเวลาที่ได้รับการบอกกล่าวเครือข่ายการร้องเพลงด้วยการร้องเพลงด้วยเสียง Interspeech 2020 | การสาธิต
การแปลงเสียงการร้องเพลงข้ามโดเมนที่ไม่ได้รับการดูแล Interspeech 2020 | การสาธิต
PitchNet: การแปลงเสียงร้องเพลงที่ไม่ได้รับการดูแลด้วยเครือข่ายฝ่ายตรงข้าม ICASSP 2020 | การสาธิต
VAW-GAN สำหรับการร้องเพลงด้วยการแปลงเสียงด้วยข้อมูลการฝึกอบรมที่ไม่ใช่แบบขนาน APSIPA 2020 | ✔Code | การสาธิต
M4SINGER: คะแนนหลายสไตล์และดนตรีที่มีหลายรูปแบบให้กับคลังร้องเพลงแมนดาริน | Neurips 2022 | ใช้และดาวน์โหลด | การสาธิต
NUS-48E Sung and Skens Lyrics Corpus | ใช้และดาวน์โหลด
NHSS: ฐานข้อมูลคำพูดและการร้องเพลงคู่ขนาน | ใช้และดาวน์โหลด
[ 2022 ]
[ 2021 ]
การตรวจสอบการเป็นตัวแทนความถี่เวลาสำหรับการแยกคุณสมบัติเสียงในการจำแนกเทคนิคการร้องเพลง Apsipa 2021
การแปลงเทคนิคการร้องเพลงแบบไม่มีการยิง CMMR 2021
[ 2022 ]
การเรียนรู้การเป็นตัวแทนคำพูดที่ไม่ขึ้นกับเสียงรบกวนสำหรับการแปลงเสียงคุณภาพสูงสำหรับลำโพงเป้าหมายที่มีเสียงดัง Interspeech 2022 | การสาธิต
Glow-Wavegan 2: การสังเคราะห์ข้อความเป็นศูนย์คุณภาพสูงและการแปลงด้วยเสียงใด ๆ และการแปลงเสียงใด ๆ Interspeech 2022 | การสาธิต
การแปลงเสียงที่ใช้การแพร่กระจายด้วยรูปแบบการสุ่มตัวอย่างสูงสุดอย่างรวดเร็ว ICLR 2022 | ✔Code | การสาธิต
Yourtts: ไปสู่ TTS หลายลำโพงที่ไม่มีการยิงและการแปลงเสียงแบบไม่มีการยิงสำหรับทุกคน | ICML 2022 | ✔Code | การสาธิต การสาธิต บล็อก
การศึกษาเปรียบเทียบการแปลงเสียงที่เป็นตัวแทนของการเป็นตัวแทนของตนเอง IEEE JSTSP 2022/07
S3PRL-VC: กรอบการแปลงเสียงโอเพนซอร์ซพร้อมการเป็นตัวแทนคำพูดที่ดูแลตนเอง | ICASSP 2022 | ✔รหัส
การเปรียบเทียบหน่วยคำพูดที่ไม่ต่อเนื่องและอ่อนนุ่มสำหรับการแปลงเสียงที่ดีขึ้น | ICASSP 2022 | ✔Code | การสาธิต
ASSEM-VC: การแปลงเสียงที่สมจริงโดยการประกอบเทคนิคการสังเคราะห์คำพูดที่ทันสมัย | ICASSP 2022 | ✔Code | การสาธิต
NVC-NET: การแปลงเสียงแบบ end-to-end ICASSP 2022 | ✔Code | การสาธิต
การเรียนรู้การเป็นตัวแทนคำพูด Variational Disentangled การเรียนรู้สำหรับการแปลงเสียงแบบศูนย์ ICASSP 2022 | การสาธิต
การฝึกอบรมโมเดลการแปลงเสียงแบบศูนย์ที่มีความแข็งแกร่งพร้อมคุณสมบัติที่ดูแลตนเอง | ICASSP 2022 | การสาธิต
ไปสู่การแปลงเสียงที่ไม่ไว้วางใจ ICASSP 2022
DGC-Vector: ลำโพงใหม่ที่ฝังตัวสำหรับการแปลงเสียงแบบศูนย์ ICASSP 2022 | การสาธิต
การถ่ายโอนรูปแบบเสียงแบบ end-to-end-shot ด้วยการควบคุมตำแหน่ง-ตัวแปร 2022/05 | การสาธิต
[ 2021 ]
ในการสร้างแบบจำลองฉันทลักษณ์สำหรับการแปลงด้วยเสียงอิง ASR+TTS | Asru 2021 | การสาธิต
การวิเคราะห์และการสังเคราะห์ระบบประสาท: การสร้างคำพูดใหม่จากการเป็นตัวแทนที่ดูแลตนเอง | Neurips 2021 | การสาธิต รหัสที่ไม่เป็นทางการ
MediumVC: การแปลงด้วยเสียงใด ๆ โดยใช้สุนทรพจน์เฉพาะผู้พูดสังเคราะห์เป็นคุณสมบัติ Intermedium | 2021/10 | ✔Code | การสาธิต
Starganv2-VC: เฟรมเวิร์กที่หลากหลายไม่ได้รับการดูแลและไม่ขนานสำหรับการแปลงเสียงที่ทำให้เกิดเสียงธรรมชาติ | Interspeech 2021 Best Paper Award | ✔Code | การสาธิต
S2VC: กรอบการทำงานสำหรับการแปลงเสียงใด ๆ กับการเป็นตัวแทนที่ได้รับการดูแลเป็นผู้ดูแลตนเอง | Interspeech 2021 | ✔Code | การสาธิต
คุณลักษณะที่ใช้การแปลงด้วยเสียงแบบหลายต่อหลายครั้งโดยใช้ Variational Autoencoder | Interspeech 2021 | ✔Code | การสาธิต
การสังเคราะห์เสียงพูดจากการเป็นตัวแทนผู้ดูแลตนเองที่ไม่ต่อเนื่อง Interspeech 2021 | การสาธิต
การปรับปรุงการถ่ายโอนรูปแบบเสียงแบบไม่มีการถ่ายภาพผ่านการเรียนรู้การเป็นตัวแทนที่แยกออกจากกัน | ICLR 2021
การถ่ายโอนสไตล์จังหวะโลกโดยไม่ต้องถอดความข้อความ | ICML 2021 | ✔รหัส
อีกครั้ง -VC: การแปลงเสียงแบบหนึ่งนัดโดยใช้คำแนะนำการเปิดใช้งานและการปรับอินสแตนซ์แบบปรับตัว ICASSP 2021 | ✔Code | การสาธิต
การแปลงเสียงแบบใด ๆ กับการสร้างแบบจำลองลำดับตามลำดับต่อลำดับ | IEEE/ACM TASLP 2021/05 | ✔Code | การสาธิต
[ 2020 ]
ภาพรวมของการแปลงเสียงและความท้าทาย: ตั้งแต่การสร้างแบบจำลองทางสถิติไปจนถึงการเรียนรู้ลึก | IEEE/ACM TASLP 2020/11
การสลายตัวของคำพูดที่ไม่ได้รับการดูแลผ่านคอขวดข้อมูลสามครั้ง | ICML 2020 | ✔รหัส
[ 2019 ]
การแปลงด้วยเสียงเดียวโดยการแยกลำโพงและการแสดงเนื้อหาด้วยอินสแตนซ์การทำให้เป็นมาตรฐาน | Interspeech 2019 | ✔รหัส
AUTOVC: การถ่ายโอนสไตล์เสียง zero-shot ด้วยการสูญเสีย autoencoder เท่านั้น | ICML 2019 | ✔Code | การสาธิต
CSTR VCTK CORPUS: คลังข้อมูลหลายลำโพงอังกฤษสำหรับ CSTR เสียงโคลนเครื่องมือ 2019 | ใช้และดาวน์โหลด
Aishell-3: Multi-Speaker Mandarin TTS Corpus และ Baselines | 2020 | ใช้และดาวน์โหลด | การสาธิต
AISHELL-2: การเปลี่ยนการวิจัย ASR แมนดารินเป็นระดับอุตสาหกรรม | 2018 | ใช้และดาวน์โหลด
AISHELL-1: คลังคำพูดภาษาแมนดารินโอเพนซอร์สและพื้นฐานการรู้จำการพูด 2017 | ใช้และดาวน์โหลด
[ 2022 ]
ความไม่ลงรอยกันของสไตล์อารมณ์และตัวตนของผู้พูดสำหรับการแปลงเสียงที่แสดงออก Interspeech 2022 | การสาธิต
การถ่ายโอนอารมณ์ข้าม-ลำโพงขึ้นอยู่กับการชดเชยฉันทลักษณ์สำหรับการสังเคราะห์คำพูดแบบครบวงจร | Interspeech 2022 | การสาธิต
ความรุนแรงทางอารมณ์และการควบคุมการแปลงเสียงอารมณ์ | ธุรกรรม IEEE เกี่ยวกับการคำนวณทางอารมณ์ 2022/07 | ✔Code | การสาธิต
การแปลงอารมณ์การพูดแบบไม่มีข้อความโดยใช้การเป็นตัวแทนที่ไม่ต่อเนื่องและย่อยสลาย | 202202 | การสาธิต
[ 2021 ]
[ 2020 ]
การแปลงอารมณ์ของทุกคน: ไปสู่การเปลี่ยนเสียงทางอารมณ์ที่ไม่ขึ้นกับผู้พูด | Interspeech 2020 | ✔Code | การสาธิต
การเปลี่ยนสเปกตรัมและฉันทลักษณ์สำหรับการแปลงเสียงทางอารมณ์ด้วยข้อมูลการฝึกอบรมที่ไม่ใช่แบบขนาน Odyssey 2020 | ✔Code | การสาธิต
[ 2022 ]
Muskits: ชุดเครื่องมือประมวลผลเพลงแบบ end-to-end สำหรับการร้องเพลงสังเคราะห์เสียง | Interspeech 2022 | ✔รหัส
Singaug: การเพิ่มข้อมูลสำหรับการร้องเพลงการสังเคราะห์ด้วยเสียงด้วยกลยุทธ์การฝึกอบรมที่สอดคล้องกับวัฏจักร | Interspeech 2022 | ✔รหัส
Wesinger: การสังเคราะห์เสียงร้องเพลงแบบเสริมข้อมูลด้วยการสูญเสียเสริม | Interspeech 2022 | การสาธิต
Wesinger 2: การสังเคราะห์เสียงร้องเพลงแบบขนานอย่างเต็มที่ผ่านการฝึกอบรมฝ่ายตรงข้ามแบบหลายสาขา 2022/08 | การสาธิต
แนวทางการเรียนรู้อย่างลึกซึ้งในหัวข้อการประมวลผลข้อมูลการร้องเพลง | IEEE/ACM TASLP 2022/07
การเรียนรู้ความงามในเพลง: การร้องเพลงของระบบประสาท ACL 2022 | ✔Code | การสาธิต
Diffsinger: การร้องเพลงสังเคราะห์ด้วยเสียงผ่านกลไกการแพร่กระจายแบบตื้น | AAAI 2022 | ✔Code | การสาธิต
[ 2021 ]
[ 2020 ]
M4SINGER: คะแนนหลายสไตล์และดนตรีที่มีหลายรูปแบบให้กับคลังร้องเพลงแมนดาริน | Neurips 2022 | ใช้และดาวน์โหลด | การสาธิต
POPCS | AAAI 2022 | ใช้และดาวน์โหลด
OpenCpop: คลังเพลงยอดนิยมของจีนโอเพนซอร์สคุณภาพสูงสำหรับการร้องเพลงสังเคราะห์เสียง | Interspeech 2022 | ใช้และดาวน์โหลด
[ 2022 ]
Prodiff: โมเดลการแพร่กระจายอย่างรวดเร็วแบบก้าวหน้าสำหรับข้อความที่มีคุณภาพสูงถึงคำพูด | ACM MM 2022 | ✔Code | การสาธิต
BDDM: แบบจำลองการแพร่กระจายแบบทวิภาคี denoising สำหรับการสังเคราะห์คำพูดที่รวดเร็วและคุณภาพสูง | ICLR 2022 | ✔Code | การสาธิต
FastDiff: แบบจำลองการแพร่กระจายอย่างรวดเร็วสำหรับการสังเคราะห์เสียงพูดคุณภาพสูง | ijcai 2022 | ✔Code | การสาธิต
[ 2022 ]
นักร้องร้องเพลงที่ใช้ DDSP: ซินธิไซเซอร์ที่ใช้การลบใหม่และการประเมินที่ครอบคลุม | ISMIR 2022 | ✔Code | การสาธิต
FastDiff: แบบจำลองการแพร่กระจายอย่างรวดเร็วสำหรับการสังเคราะห์เสียงพูดคุณภาพสูง | ijcai 2022 | ✔Code | การสาธิต
Binauralgrad: แบบจำลองความน่าจะเป็นแบบสองขั้นตอนสำหรับการแพร่กระจายแบบสองขั้นตอนสำหรับการสังเคราะห์เสียง binaural | 2022/05 | การสาธิต
[ 2021 ]
Multi-Singer: นักร้องเสียงร้องเพลงหลายร้องพร้อมคลังข้อมูลขนาดใหญ่ | ACM MM 2021 | ใช้และดาวน์โหลด | ✔Code | การสาธิต
Wavegrad 2: การปรับแต่งซ้ำสำหรับการสังเคราะห์ข้อความถึงคำพูด | Interspeech 2021 | การสาธิต
Diffwave: รูปแบบการแพร่กระจายที่หลากหลายสำหรับการสังเคราะห์เสียง | ICLR 2021 | ✔Code | การสาธิต
Wavegrad: การประเมินการไล่ระดับสีสำหรับการสร้างรูปคลื่น | ICLR 2021 | การสาธิต
[ 2020 ]
HIFI-GAN: เครือข่ายฝ่ายตรงข้ามที่เกิดขึ้นสำหรับการสังเคราะห์คำพูดที่มีประสิทธิภาพและมีความซื่อสัตย์สูง | Neurips 2020 | ✔Code | การสาธิต
Multi-band Melgan: การสร้างรูปคลื่นที่เร็วขึ้นสำหรับข้อความที่มีคุณภาพสูง Interspeech 2020 | การสาธิต
Wavegan แบบขนาน: โมเดลการสร้างรูปคลื่นที่รวดเร็วขึ้นอยู่กับเครือข่ายฝ่ายตรงข้ามกำเนิดที่มีสเปคโตรราฟรัมความละเอียดหลายความละเอียด | ICASSP 2020 | การสาธิต รหัสที่ไม่เป็นทางการ
[ 2019 ]
MELGAN: เครือข่ายฝ่ายตรงข้ามกำเนิดสำหรับการสังเคราะห์รูปคลื่นแบบมีเงื่อนไข | Neurips 2019 | ✔Code | การสาธิต
สู่การบรรลุคำสั่งประสาทสากลที่แข็งแกร่ง | Interspeech 2019 | ✔Code | การสาธิต รหัสที่ไม่เป็นทางการ
[ 2022 ]
การสังเคราะห์เพลงหลายรายการด้วยการแพร่กระจายของสเปกโตรแกรม | ISMIR 2022 | ✔Code | การสาธิต
Musika การสร้างคลื่นวิทยุแบบไม่สิ้นสุดอย่างรวดเร็ว ISMIR 2022 | ✔Code | การสาธิต
[ 2022 ]
[ 2021 ]
[ 2022 ]
Unispeech-Sat: การเรียนรู้การเป็นตัวแทนของสากลกับผู้พูดรู้ล่วงหน้าการฝึกอบรม | ICASSP 2022 | ✔Code | ✔รหัส
การแลกเปลี่ยนประสิทธิภาพการทำงานในการฝึกอบรมก่อนการรับรู้การพูดคุย ICASSP 2022 | ✔Code | ✔รหัส
Pseudo-labeling สำหรับการจดจำคำพูดที่พูดได้หลายภาษา ICASSP 2022 | ✔Code | ✔รหัส
WAVLM: การฝึกอบรมก่อนการฝึกอบรมตนเองขนาดใหญ่สำหรับการประมวลผลคำพูดแบบสแต็กเต็มรูปแบบ | IEEE JSTSP 2022/06 | ✔Code | ✔รหัส
[ 2021 ]
XLS-R: การเรียนรู้คำพูดข้ามภาษาที่ดูแลตนเองในระดับ 2021/12 | ✔Code | ✔รหัส
การจดจำเสียงฟอนิมแบบข้ามภาษาแบบไม่ใช้งานง่ายและมีประสิทธิภาพ | 2021/09 | ✔Code | ✔รหัส
TERA: การเรียนรู้ด้วยตนเองของตัวเองเกี่ยวกับการเป็นตัวแทนของ Transformer Encoder สำหรับการพูด | IEEE/ACM TASLP 2021/08 | ✔รหัส
Unispeech: การเรียนรู้การเป็นตัวแทนแบบรวมด้วยข้อมูลที่มีป้ายกำกับและไม่มีป้ายกำกับ | ICML 2021 | ✔Code | ✔Code | ✔รหัส
ฮิวเบิร์ต: การเรียนรู้การพูดด้วยตนเองโดยการทำนายโดยการทำนายของหน่วยที่ซ่อนอยู่ | IEEE/ACM TASLP 2021/06 | ✔Code | ✔รหัส
[ 2020 ]
WAV2VEC 2.0: กรอบการเรียนรู้การเรียนรู้ด้วยตนเองของการเป็นตัวแทนการพูด | Neurips 2020 | ✔Code | ✔รหัส
VQ-WAV2VEC: การเรียนรู้ด้วยตนเองของการเป็นตัวแทนการพูดแบบไม่ต่อเนื่อง | ICLR 2020 | ✔Code | ✔รหัส
Mockingjay: การเรียนรู้การเป็นตัวแทนการพูดที่ไม่ได้รับการดูแลด้วยการเข้ารหัสหม้อแปลงแบบสองทิศทาง ICASSP 2020 | ✔รหัส
การเรียนรู้การเป็นตัวแทนข้ามภาษาที่ไม่ได้รับการดูแลเพื่อการรู้จำเสียง 2020/06 | ✔Code | ✔รหัส
Fairseq S2T: การสร้างแบบจำลองคำพูดเป็นข้อความอย่างรวดเร็วด้วย FairSeq | AACL 2020 | ✔Code | ✔รหัส
[ 2019 ]
[ 2022 ]
[ 2021 ]
[ 2021 ]
[ 2022 ]
[ 2022 ]
[ 2021 ]
[ 2022 ]
[ 2021 ]
[ 2021 ]
ความท้าทายการแปลงด้วยเสียง 2020 | ใช้และดาวน์โหลด | ✔รหัส
The Blizzard Challenge