Una lista de documentos y proyectos sobre la síntesis del habla de vanguardia, el texto a la voz (TTS) , la síntesis de voz de canto (SVS) , la conversión de voz (VC) , la conversión de voz de canto (SVC) y las obras interesantes relacionadas (como la síntesis de música , la transcripción automática de la música , la predicción automática MOS , el ASR basado en SSL , ... etc).
Bienvenido a las relaciones públicas o contácteme por correo electrónico ([email protected]) para actualizar documentos y trabajos.
IEEE/ACM TASLP, IEEE JSTSP, JSLHR, IEEE TPAMI
NeurAIPS, ICLR, ICML, IJAI, AAAI, ACL, NAACL, EMNLP, ISMIR, ACM MM, ICASSP, INTERSPEECH, ICME
Asru, slt
[ 2022 ]
Learn2sing 2.0: Difusión y orador objetivo basado en información mutua SVS aprendiendo de Singing Teacher | Interpecha 2022 | ✔️Code | Manifestación
Un marco de representación de altavoces jerárquicos para la conversión de voz de canto de un disparo | Interpecha 2022 | Manifestación
Mejora de la conversión de voz de canto basada en la generación de la forma de onda de la generación de onda con señales armónicas | ICASSP 2022 | Manifestación
[ 2021 ]
DiffSVC: un modelo probabilístico de difusión para cantar la conversión de voz | ASRU 2021 | Manifestación
Descomposición de voz de canto controlable e interpretable a través de Assem-VC | Neurips 2021 Taller | Manifestación
Hacia la conversión de voz de canto de alta fidelidad con referencia acústica y codificación predictiva contrastante | 2021/10 | Manifestación
FastSVC: conversión de voz de canto de dominio cruzado rápido con modulación lineal de funciones | ICME 2021 | Manifestación
Conversión de voz de canto no supervisada basada en Wavenet utilizando aumento de tono y enfoque de dos fases | 2021/07 | ✔️Code | Manifestación
[ 2020 ]
Conversión de voz de canto de cero disparos | Ismir 2020 | Manifestación
Los rectores posteriores fonéticos basados en una conversión de voz de canto de muchos a muchos a través del entrenamiento adversario | 2020/12 | Demostración | Código no oficial
Durian-SC: Sistema de conversión de voz de canto basado en la red de atención informada de duración | Interpeche 2020 | Manifestación
Conversión de voz de canto de dominio cruzado sin supervisión | Interpeche 2020 | Manifestación
Pitchnet: Conversión de voz de canto no supervisada con red de adversar en red | ICASSP 2020 | Manifestación
VAW-Gan para cantar la conversión de voz con datos de entrenamiento no paralelos | Apsipa 2020 | ✔️Code | Manifestación
M4Singer: una partitura múltiple, de múltiples cantantes y musicales proporcionó un cuerpo de canto mandarín | Neurips 2022 | ? Aplicar y descargar | Manifestación
NUS-48E Corpus de letras cantadas y habladas | ? Aplicar y descargar
NHSS: una base de datos paralela de discurso y canto | ? Aplicar y descargar
[ 2022 ]
[ 2021 ]
Investigación de representaciones de frecuencia de tiempo para la extracción de características de audio en la clasificación de la técnica de canto | Apsipa 2021
Conversión de la técnica de canto cero de disparo | CMMR 2021
[ 2022 ]
Aprendizaje de la representación del habla independiente del ruido para la conversión de voz de alta calidad para altavoces objetivo ruidosos | Interpecha 2022 | Manifestación
GLOW-WAVEGHE 2: Síntesis de texto a voz de alta calidad de texto a voz y conversión de voz de cualquiera a cualquiera | Interpecha 2022 | Manifestación
Conversión de voz basada en difusión con un esquema de muestreo de máxima verosimilitud rápida | ICLR 2022 | ✔️Code | Manifestación
YourTts: Hacia TTS de múltiples disparos cero y conversión de voz de cero disparos para todos | ICML 2022 | ✔️Code | Demostración | Demostración | Blog
Un estudio comparativo de la conversión de voz basada en la representación del habla auto-supervisada | IEEE JSTSP 2022/07
S3PRL-VC: Marco de conversión de voz de código abierto con representaciones de habla auto-supervisadas | ICASSP 2022 | ✔️Code
Una comparación de unidades de habla discretas y suaves para una conversión de voz mejorada | ICASSP 2022 | ✔️Code | Manifestación
Asamble-VC: conversión de voz realista mediante el ensamblaje de técnicas modernas de síntesis del habla | ICASSP 2022 | ✔️Code | Manifestación
NVC-NET: conversión de voz adversaria de extremo a extremo | ICASSP 2022 | ✔️Code | Manifestación
Representación de discurso variacional desanimado robusto para el aprendizaje para la conversión de voz de disparo cero | ICASSP 2022 | Manifestación
Entrenamiento modelos robustos de conversión de voz de disparo cero con características auto-supervisadas | ICASSP 2022 | Manifestación
Hacia la conversión de voz de degradación-robusta | ICASSP 2022
Vector DGC: un nuevo altavoz incrustado para la conversión de voz de disparo cero | ICASSP 2022 | Manifestación
Transferencia de estilo de voz de extremo a extremo de cero, con convoluciones variables de ubicación | 2022/05 | Manifestación
[ 2021 ]
En modelado de prosody para la conversión de voz basada en ASR+TTS | ASRU 2021 | Manifestación
Análisis neural y síntesis: reconstrucción del discurso a partir de representaciones auto-supervisadas | Neurips 2021 | Demostración | Código no oficial
MediumVC: conversión de voz de cualquiera a cualquiera utilizando discursos sintéticos específicos como características intermedias | 2021/10 | ✔️Code | Manifestación
Starganv2-VC: un marco diverso, no supervisado y no paralelo para la conversión de voz de sonido natural | Interpeche 2021 Premio al mejor papel | ✔️Code | Manifestación
S2VC: un marco para la conversión de voz de cualquiera a cualquiera con representaciones de pretrados de auto-supervisadas | Interpeche 2021 | ✔️Code | Manifestación
Desengange de características basadas en la conversión de voz de muchos a muchos utilizando Autoencoder variacional | Interpeche 2021 | ✔️Code | Manifestación
Resíntesis del discurso de representaciones discretas desactivadas auto-supervisadas | Interpeche 2021 | Manifestación
Mejora de la transferencia de estilo de voz de disparo cero a través del aprendizaje de representación desenredada | ICLR 2021
Transferencia de estilo de ritmo global sin transcripciones de texto | ICML 2021 | ✔️Code
Again-VC: una conversión de voz de una sola vez utilizando la guía de activación y la normalización de instancias adaptativas | ICASSP 2021 | ✔️Code | Manifestación
Conversión de voz de cualquiera a muchos con modelado de secuencia a secuencia de ubicación | IEEE/ACM TASLP 2021/05 | ✔️Code | Manifestación
[ 2020 ]
Una descripción general de la conversión de voz y sus desafíos: desde el modelado estadístico hasta el aprendizaje profundo | IEEE/ACM TASLP 2020/11
Descomposición del habla no supervisada a través del cuello de botella de Triple Information | ICML 2020 | ✔️Code
[ 2019 ]
Conversión de voz de un solo disparo separando las representaciones de altavoz y contenido con normalización de instancias | Interpeche 2019 | ✔️Code
AutovC: transferencia de estilo de voz de disparo cero con solo pérdida de autoencoder | ICML 2019 | ✔️Code | Manifestación
CSTR VCTK Corpus: Corpus de múltiples altavoces ingleses para el kit de herramientas de clonación de voz CSTR | 2019 | ? Aplicar y descargar
Aishell-3: un corpus de mandarín TTS de múltiples altavoces y las líneas de base | 2020 | ? Aplicar y descargar | Manifestación
Aishell-2: Investigación transformadora de mandarín ASR a escala industrial | 2018 | ? Aplicar y descargar
Aishell-1: un corpus de discurso mandarín de código abierto y una línea de base de reconocimiento de voz | 2017 | ? Aplicar y descargar
[ 2022 ]
Desenglemento del estilo emocional y la identidad del altavoz para la conversión de voz expresiva | Interpecha 2022 | Manifestación
Transferencia de emoción de los brotadores basados en la compensación de la prosodia para la síntesis del habla de extremo a extremo | Interpecha 2022 | Manifestación
Intensidad emocional y su control para la conversión de voz emocional | Transacciones IEEE en la computación afectiva 2022/07 | ✔️Code | Manifestación
Conversión de emoción del habla sin texto utilizando representaciones discretas y descompuestas | 202202 | Manifestación
[ 2021 ]
[ 2020 ]
Convertir la emoción de cualquier persona: hacia la conversión de voz emocional independiente de los hablantes | Interpeche 2020 | ✔️Code | Manifestación
Transformando el espectro y la prosodia para la conversión de voz emocional con datos de entrenamiento no paralelos | Odyssey 2020 | ✔️Code | Manifestación
[ 2022 ]
Muskits: un kit de herramientas de procesamiento musical de extremo a extremo para cantar síntesis de voz | Interpecha 2022 | ✔️Code
SINGAUG: Aumento de datos para cantar síntesis de voz con estrategia de entrenamiento consistente en ciclo | Interpecha 2022 | ✔️Code
Wesinger: Síntesis de voz de canto de los datos con pérdidas auxiliares | Interpecha 2022 | Manifestación
Wesinger 2: Síntesis de voz de canto totalmente paralela a través de entrenamiento adversario condicional de múltiples cantantes | 2022/08 | Manifestación
Enfoques de aprendizaje profundo en temas de procesamiento de información de canto | IEEE/ACM TASLP 2022/07
Aprendiendo la belleza en las canciones: neural canto de voz Beautifier | ACL 2022 | ✔️Code | Manifestación
Diffsinger: Síntesis de voz de canto a través del mecanismo de difusión poco profunda | AAAI 2022 | ✔️Code | Manifestación
[ 2021 ]
[ 2020 ]
M4Singer: una partitura múltiple, de múltiples cantantes y musicales proporcionó un cuerpo de canto mandarín | Neurips 2022 | ? Aplicar y descargar | Manifestación
POPCS | AAAI 2022 | ? Aplicar y descargar
OpenCpop: un corpus de canciones popular chino de alta calidad de código abierto para cantar Síntesis de voz | Interpecha 2022 | ? Aplicar y descargar
[ 2022 ]
Prodiff: modelo de difusión rápida progresiva para texto a voz de alta calidad | ACM MM 2022 | ✔️Code | Manifestación
BDDM: modelos de difusión de denominación bilateral para la síntesis de habla rápida y de alta calidad | ICLR 2022 | ✔️Code | Manifestación
Fastdiff: un modelo de difusión condicional rápido para la síntesis de voz de alta calidad | IJCAI 2022 | ✔️Code | Manifestación
[ 2022 ]
Vocoders cantantes basados en DDSP: un nuevo sintetizador basado en sustractivos y una evaluación integral | Ismir 2022 | ✔️Code | Manifestación
Fastdiff: un modelo de difusión condicional rápido para la síntesis de voz de alta calidad | IJCAI 2022 | ✔️Code | Manifestación
BinauralGrad: un modelo probabilístico de difusión condicional de dos etapas para la síntesis de audio binaural | 2022/05 | Manifestación
[ 2021 ]
Multi-singer: Vocoder de voz cantante de múltiples cantantes rápidos con un corpus a gran escala | ACM MM 2021 | ? Aplicar y descargar | ✔️Code | Manifestación
Wavegrad 2: Refinamiento iterativo para síntesis de texto a voz | Interpeche 2021 | Manifestación
Diffwave: un modelo de difusión versátil para la síntesis de audio | ICLR 2021 | ✔️Code | Manifestación
WaveGrad: estimación de gradientes para la generación de forma de onda | ICLR 2021 | Manifestación
[ 2020 ]
Hifi-Gan: redes adversas generativas para la síntesis de habla eficiente y de alta fidelidad | Neurips 2020 | ✔️Code | Manifestación
Melgan de banda múltiple: generación de forma de onda más rápida para texto a voz de alta calidad | Interpeche 2020 | Manifestación
WaveGan paralelo: un modelo de generación de forma de onda rápida basado en redes adversas generativas con espectrograma de resolución múltiple | ICASSP 2020 | Demostración | Código no oficial
[ 2019 ]
Melgan: redes adversas generativas para la síntesis de forma de onda condicional | Neurips 2019 | ✔️Code | Manifestación
Hacia el logro de vocoding neuronal universal robusto | Interpeche 2019 | ✔️Code | Demostración | Código no oficial
[ 2022 ]
Síntesis de música multi-instrumentos con difusión del espectrograma | Ismir 2022 | ✔️Code | Manifestación
¡Musika! Generación rápida de música de forma de onda infinita | Ismir 2022 | ✔️Code | Manifestación
[ 2022 ]
[ 2021 ]
[ 2022 ]
UNISPEECH-SAT: Representación del habla universal Aprendizaje con el orador consciente de la capacitación previa | ICASSP 2022 | ✔️Code | ✔️Code
Comercibiales de eficiencia de rendimiento en la capacitación previa no supervisada para el reconocimiento de voz | ICASSP 2022 | ✔️Code | ✔️Code
Pseudo-etiquetado para el reconocimiento de voz masivamente multilingüe | ICASSP 2022 | ✔️Code | ✔️Code
WAVLM: pretruento auto-supervisado a gran escala para procesamiento completo de habla de pila | IEEE JSTSP 2022/06 | ✔️Code | ✔️Code
[ 2021 ]
XLS-R: Aprendizaje de la representación del discurso interlingüal auto-supervisado a escala | 2021/12 | ✔️Code | ✔️Code
Reconocimiento de fonema interlingüe de disparo cero simple y efectivo | 2021/09 | ✔️Code | ✔️Code
TERA: Aprendizaje auto-supervisado de la representación del codificador del transformador para el habla | IEEE/ACM TASLP 2021/08 | ✔️Code
Uniscoech: aprendizaje de representación del habla unificada con datos etiquetados y no etiquetados | ICML 2021 | ✔️Code | ✔️Code | ✔️Code
Hubert: aprendizaje de la representación del habla auto-supervisada mediante predicción enmascarada de unidades ocultas | IEEE/ACM TASLP 2021/06 | ✔️Code | ✔️Code
[ 2020 ]
WAV2VEC 2.0: Un marco para el aprendizaje auto-supervisado de las representaciones del habla | Neurips 2020 | ✔️Code | ✔️Code
VQ-WAV2VEC: Aprendizaje auto-supervisado de representaciones discretas del habla | ICLR 2020 | ✔️Code | ✔️Code
MockingJay: Learning sin supervisión de la representación del habla con codificadores de transformadores bidireccionales profundos | ICASSP 2020 | ✔️Code
Learning sin supervisión de representación interlingual para el reconocimiento de voz | 2020/06 | ✔️Code | ✔️Code
FAIRSEQ S2T: modelado rápido de voz a texto con Fairseq | AACL 2020 | ✔️Code | ✔️Code
[ 2019 ]
[ 2022 ]
[ 2021 ]
[ 2021 ]
[ 2022 ]
[ 2022 ]
[ 2021 ]
[ 2022 ]
[ 2021 ]
[ 2021 ]
Desafío de conversión de voz 2020 | ? Aplicar y descargar | ✔️Code
The Blizzard Challenge