قائمة الورق والمشروع حول تخليق الكلام المتطورة ، النص إلى الكلام (TTS) ، تخليق الصوت الغنائي (SVS) ، تحويل الصوت (VC) ، تحويل الصوت الغنائي (SVC) ، والأعمال المثيرة للاهتمام ذات الصلة (مثل تخليق الموسيقى ، نسخ الموسيقى التلقائي ، تنبؤات MOS التلقائية ، SSL ، ... ETC).
مرحبًا بك في PR أو اتصل بي عبر البريد الإلكتروني ([email protected]) لتحديث الأوراق والأعمال.
IEEE/ACM TASLP ، IEEE JSTSP ، JSLHR ، IEEE TPAMI
Neuraips ، ICLR ، ICML ، IJAI ، AAAI ، ACL ، NAACL ، EMNLP ، ISMIR ، ACM MM ، ICASSP ، Interspeech ، ICME
ASRU ، SLT
[ 2022 ]
Learn2Sing 2.0: SVS الهدف المستهدف للانتشار والمواد المتبادلة من خلال التعلم من المعلم الغناء | Interspeech 2022 | ✔code | العرض التوضيحي
إطار عمل لتمثيل المتحدث الهرمي لتحويل صوت غناء واحد | Interspeech 2022 | العرض التوضيحي
تحسين تحويل صوت الطول الموجي القائم على التحويل الصوتي مع الإشارات التوافقية | ICASSP 2022 | العرض التوضيحي
[ 2021 ]
DIFFSVC: نموذج احتمالي للانتشار لغناء تحويل الصوت | ASRU 2021 | العرض التوضيحي
تحلل صوت غناء يمكن التحكم فيه ويمكن تفسيره عبر ASSESS-VC | Neupips 2021 ورشة عمل | العرض التوضيحي
نحو التحويل الصوتي الغناء العالي الدقة مع المرجع الصوتي والترميز التنبئي التباين | 2021/10 | العرض التوضيحي
FASTSVC: تحويل الصوت سريع الغناء عبر المجال مع تعديل خطي من الحكمة | ICME 2021 | العرض التوضيحي
تحويل صوت الغناء غير الخاضع للإشراف على Wavenet باستخدام زيادة الملعب ونهج ثنائي الطور | 2021/07 | ✔code | العرض التوضيحي
[ 2020 ]
صفر طلقة غناء تحويل الصوت | ISMIR 2020 | العرض التوضيحي
propertgrams الصوتية القائمة على تحويل الصوت العديد من الغناء عن طريق التدريب العدواني | 2020/12 | العرض التوضيحي | رمز غير رسمي
Durian-SC: نظام التحويل الصوتي على أساس شبكة الانتباه المستنيرة | Interspeech 2020 | العرض التوضيحي
غير خاضع للرقابة عبر المجال الغناء تحويل الصوت | Interspeech 2020 | العرض التوضيحي
Pitchnet: تحويل صوت الغناء غير الخاضع للإشراف مع شبكة عدوى الملعب | ICASSP 2020 | العرض التوضيحي
VAW-GAN لغناء تحويل الصوت مع بيانات التدريب غير الموازية | Apsipa 2020 | ✔code | العرض التوضيحي
M4Singer: قدمت مجموعة متعددة ، متعددة ، النتيجة الموسيقية ماندرين غناء كوربوس | Neupips 2022 | ؟ تطبيق وتنزيل | العرض التوضيحي
NUS-48E SUNG والكلمات المنطوقة Corpus | ؟ تطبيق وتنزيل
NHSS: خطاب وغناء قاعدة بيانات متوازية | ؟ تطبيق وتنزيل
[ 2022 ]
[ 2021 ]
التحقيق في تمثيل التردد الزمني لاستخراج ميزة الصوت في تصنيف تقنية الغناء | Apsipa 2021
صفر طلقة غناء تقنية التحويل | CMMR 2021
[ 2022 ]
تعلم تمثيل الكلام المستقل عن الضوضاء لتحويل الصوت عالي الجودة للمتحدثين المستهدفين صاخبة | Interspeech 2022 | العرض التوضيحي
Glow-Wavegan 2: تخليق نص إلى كلام عالي الجودة وتحويل أي صوت | Interspeech 2022 | العرض التوضيحي
تحويل الصوت القائم على الانتشار مع مخطط أخذ عينات الاحتمالية القصوى | ICLR 2022 | ✔code | العرض التوضيحي
YouRtts: نحو التحويل الصوتي متعدد الحواف الصفر والتحويل الصوتي للجميع | ICML 2022 | ✔code | العرض التوضيحي | العرض التوضيحي | مدونة
دراسة مقارنة لتحويل الصوت القائم على تمثيل الكلام الخاضع للإشراف | IEEE JSTSP 2022/07
S3PRL-VC: إطار تحويل صوت مفتوح المصدر مع تمثيلات الكلام الخاضعة للإشراف على ذاتيا | ICASSP 2022 | ✔code
مقارنة بين وحدات الكلام المنفصلة والناعمة لتحسين التحويل الصوتي | ICASSP 2022 | ✔code | العرض التوضيحي
ASSESS-VC: تحويل صوتي واقعي عن طريق تجميع تقنيات توليف الكلام الحديثة | ICASSP 2022 | ✔code | العرض التوضيحي
NVC-NET: تحويل صوت خصودية من طرف إلى نهاية | ICASSP 2022 | ✔code | العرض التوضيحي
تمثيل الكلام المتغير القوي من التعلم من أجل تحويل الصوت صفريًا | ICASSP 2022 | العرض التوضيحي
تدريب نماذج تحويل صوت قوية صفرية مع ميزات خاضعة للإشراف على ذاتيا | ICASSP 2022 | العرض التوضيحي
نحو التحول الصوتي تدهور-روبست | ICASSP 2022
DGC-Vector: مكبر صوت جديد تضمين لتحويل الصوت صفريًا | ICASSP 2022 | العرض التوضيحي
نقل نمط صوت صفر من طرف إلى طرف مع ملحقات متغيرة الموقع | 2022/05 | العرض التوضيحي
[ 2021 ]
على النمذجة prosody لتحويل الصوت ASR+TTS | ASRU 2021 | العرض التوضيحي
التحليل العصبي والتوليف: إعادة بناء الكلام من التمثيلات الخاضعة للرقابة الذاتية | Neups 2021 | العرض التوضيحي | رمز غير رسمي
MediumVC: أي تحويل صوتي من أي شخص باستخدام خطب مكبرات الصوت الخاصة بالاصطناعية مثل ميزات Intermedium | 2021/10 | ✔code | العرض التوضيحي
Starganv2-VC: إطار متنوع وغير خاضع للإشراف وغير موازٍ لتحويل الصوت الطبيعي | interspeech 2021 أفضل جائزة الورق | ✔code | العرض التوضيحي
S2VC: إطار لتحويل صوتي من أي شيء مع تمثيلات صوتية خاضعة للرقابة الذاتية | Interspeech 2021 | ✔code | العرض التوضيحي
ميزة تحويل الصوت العديدة إلى العدد إلى DisentAngled باستخدام Autoencoder variational | Interspeech 2021 | ✔code | العرض التوضيحي
إعادة تكوين الكلام من التمثيلات الخاضعة للإشراف الذاتي المنفصلة | Interspeech 2021 | العرض التوضيحي
تحسين نقل النمط الصوتي الصفر من خلال التعلم التمثيل disentangled | ICLR 2021
نقل نمط الإيقاع العالمي بدون نسخ نص | ICML 2021 | ✔code
مرة أخرى-VC: تحويل صوت واحد باستخدام إرشادات التنشيط وتطبيع المثيل التكيفي | ICASSP 2021 | ✔code | العرض التوضيحي
التحويل الصوتي من أي شخص مع نمذجة تسلسل إلى تسلسل إلى الموقع | IEEE/ACM TASLP 2021/05 | ✔code | العرض التوضيحي
[ 2020 ]
نظرة عامة على تحويل الصوت وتحدياته: من النمذجة الإحصائية إلى التعلم العميق | IEEE/ACM TASLP 2020/11
تحلل الكلام غير الخاضع للرقابة عبر عنق الزجاجة الثلاثية | ICML 2020 | ✔code
[ 2019 ]
تحويل صوت واحد عن طريق فصل تمثيلات السماعة والمواد المحتوى مع تطبيع المثيل | Interspeech 2019 | ✔code
AutoVC: نقل نمط الصوت الصفر مع خسارة Autoencoder فقط | ICML 2019 | ✔code | العرض التوضيحي
CSTR VCTK Corpus: English Multi-Speaker Corpus for CSTR Voice Cloning Toolkit | 2019 | ؟ تطبيق وتنزيل
Aishell-3: Corpus Mandarin TTS متعدد الحواف و The Baselines | 2020 | ؟ تطبيق وتنزيل | العرض التوضيحي
Aishell-2: تحويل أبحاث Mandarin ASR إلى النطاق الصناعي | 2018 | ؟ تطبيق وتنزيل
Aishell-1: مجموعة خطاب ماندرين مفتوحة المصدر وخط أساس التعرف على الكلام | 2017 | ؟ تطبيق وتنزيل
[ 2022 ]
تفكيك الأسلوب العاطفي وهوية المتحدث لتحويل الصوت التعبيري | Interspeech 2022 | العرض التوضيحي
نقل العاطفة المتقاطعة على أساس تعويضات Prosody لتوليف الكلام من طرف إلى طرف | Interspeech 2022 | العرض التوضيحي
شدة العاطفة وسيطرتها لتحويل الصوت العاطفي | معاملات IEEE على الحوسبة العاطفية 2022/07 | ✔code | العرض التوضيحي
تحويل العاطفة الكلام غير القصير باستخدام تمثيلات منفصلة ومتحللة | 202202 | العرض التوضيحي
[ 2021 ]
[ 2020 ]
تحويل عاطفة أي شخص: نحو تحويل الصوت العاطفي المستقل عن المتحدث | Interspeech 2020 | ✔code | العرض التوضيحي
تحويل الطيف و prosody لتحويل الصوت العاطفي مع بيانات التدريب غير المتوازية | أوديسي 2020 | ✔code | العرض التوضيحي
[ 2022 ]
المسك: مجموعة أدوات معالجة الموسيقى من طرف إلى طرف لغناء تخليق الصوت | Interspeech 2022 | ✔code
Singaug: زيادة البيانات في غناء تخليق الصوت مع استراتيجية التدريب المتسقة للدوران | Interspeech 2022 | ✔code
Wesinger: تخليق صوت غناء غنائي مع البيانات مع خسائر مساعدة | Interspeech 2022 | العرض التوضيحي
Wesinger 2: تخليق صوت غناء متوازي تمامًا عبر التدريب العدواني الشرطي متعدد الأغاني | 2022/08 | العرض التوضيحي
نهج التعلم العميق في موضوعات الغناء معالجة المعلومات | IEEE/ACM TASLP 2022/07
تعلم الجمال في الأغاني: صوت الغناء العصبي beautifier | ACL 2022 | ✔code | العرض التوضيحي
Diffsinger: غناء تخليق الصوت عبر آلية الانتشار الضحلة | AAAI 2022 | ✔code | العرض التوضيحي
[ 2021 ]
[ 2020 ]
M4Singer: قدمت مجموعة متعددة ، متعددة ، النتيجة الموسيقية ماندرين غناء كوربوس | Neupips 2022 | ؟ تطبيق وتنزيل | العرض التوضيحي
Popcs | AAAI 2022 | ؟ تطبيق وتنزيل
OpenCpop: مجموعة الأغنية الصينية الشهيرة ذات الجودة العالية المصدر للغناء لتخليق الصوت | Interspeech 2022 | ؟ تطبيق وتنزيل
[ 2022 ]
PRODIFF: نموذج نشر سريع تدريجي لنص إلى نص عالي الجودة | ACM MM 2022 | ✔code | العرض التوضيحي
BDDM: نماذج انتشار ثنائية الثنائية لتوليف الكلام السريع وعالي الجودة | ICLR 2022 | ✔code | العرض التوضيحي
Fastdiff: نموذج نشر مشروط سريع لتوليف الكلام عالي الجودة | ijcai 2022 | ✔code | العرض التوضيحي
[ 2022 ]
Vocoders الغنائية المستندة إلى DDSP: مزج جديد قائم على الطبق وتقييم شامل | Ismir 2022 | ✔code | العرض التوضيحي
Fastdiff: نموذج نشر مشروط سريع لتوليف الكلام عالي الجودة | ijcai 2022 | ✔code | العرض التوضيحي
الأذنين: نموذج احتمالي للانتشار الشرطي على مرحلتين لتوليف الصوت الأذني | 2022/05 | العرض التوضيحي
[ 2021 ]
Multi-singer: Vast Sing Singing Voice Vocoder مع مجموعة واسعة النطاق | ACM MM 2021 | ؟ تطبيق وتنزيل | ✔code | العرض التوضيحي
Wavegrad 2: التحسين التكراري لتوليف النص إلى كلام | Interspeech 2021 | العرض التوضيحي
Diffwave: نموذج نشر متعدد الاستخدامات لتوليف الصوت | ICLR 2021 | ✔code | العرض التوضيحي
Wavegrad: تقدير التدرجات لتوليد الموجة | ICLR 2021 | العرض التوضيحي
[ 2020 ]
HIFI-GAN: شبكات الخصومة التوليدية لتوليف خطاب فعال وعالي الإخلاص | Neupips 2020 | ✔code | العرض التوضيحي
Multi-Band Melgan: توليد الموجة الأسرع لصالح النص إلى الكلام عالي الجودة | Interspeech 2020 | العرض التوضيحي
موازي Wavegan: نموذج توليد الموجة السريعة يعتمد على شبكات الخصومة التوليدية مع طيف متعدد الدقة | ICASSP 2020 | العرض التوضيحي | رمز غير رسمي
[ 2019 ]
ميليغان: شبكات الخصومة التوليدية لتوليف الشكل الموجي الشرطي | Neupips 2019 | ✔code | العرض التوضيحي
نحو تحقيق المفردات العصبية الشاملة الشاملة | Interspeech 2019 | ✔code | العرض التوضيحي | رمز غير رسمي
[ 2022 ]
توليف الموسيقى متعدد الأطوار مع انتشار الطيف | Ismir 2022 | ✔code | العرض التوضيحي
موسيكا! سريع لا حصر لها من الطول الموجي توليد | Ismir 2022 | ✔code | العرض التوضيحي
[ 2022 ]
[ 2021 ]
[ 2022 ]
Unispeech-SAT: تمثيل الكلام العالمي تعلم مع المتحدث المسبق قبل التدريب | ICASSP 2022 | ✔code | ✔code
مقايضات كفاءة الأداء في التدريب قبل التدريب على التعرف على الكلام | ICASSP 2022 | ✔code | ✔code
التسمية الزائفة للتعرف على الكلام متعدد اللغات على نطاق واسع | ICASSP 2022 | ✔code | ✔code
WAVLM: التدريب على نطاق واسع على نطاق واسع لتجهيز الكلام الكامل | IEEE JSTSP 2022/06 | ✔code | ✔code
[ 2021 ]
XLS-R: تمثيل الكلام عبر اللغات الخاضع للإشراف ذاتيًا التعلم على نطاق واسع | 2021/12 | ✔code | ✔code
بسيطة وفعالة صفر لقطة صوتية التعرف على الصوتية | 2021/09 | ✔code | ✔code
تيرا: التعلم الخاضع للإشراف ذاتيا لتمثيل تشفير المحولات للكلام | IEEE/ACM TASLP 2021/08 | ✔code
Unispeech: تمثيل الكلام الموحد التعلم مع البيانات المسمى وغير المسمى | ICML 2021 | ✔code | ✔code | ✔code
هوبرت: تمثيل الكلام الخاضع للإشراف على التعلم من خلال التنبؤ المقنع للوحدات المخفية | IEEE/ACM TASLP 2021/06 | ✔code | ✔code
[ 2020 ]
WAV2VEC 2.0: إطار للتعلم الخاضع للإشراف على تمثيلات الكلام | Neupips 2020 | ✔code | ✔code
VQ-WAV2VEC: التعلم الخاضع للإشراف ذاتيًا لتمثيلات الكلام المنفصلة | ICLR 2020 | ✔code | ✔code
Mockingjay: تمثيل الكلام غير الخاضع للإشراف التعلم مع ترميزات محول ثنائي الاتجاه العميق | ICASSP 2020 | ✔code
التمثيل عبر اللغات غير الخاضع للرقابة التعلم للتعرف على الكلام | 2020/06 | ✔code | ✔code
Fairseq S2T: النمذجة السريعة للكلام إلى النص مع Fairseq | AACL 2020 | ✔code | ✔code
[ 2019 ]
[ 2022 ]
[ 2021 ]
[ 2021 ]
[ 2022 ]
[ 2022 ]
[ 2021 ]
[ 2022 ]
[ 2021 ]
[ 2021 ]
تحدي تحويل الصوت 2020 | ؟ تطبيق وتنزيل | ✔code
تحدي عاصفة ثلجية