Todo sobre el habla
Este repositorio organiza documentos, materiales de aprendizaje, códigos con el propósito de comprender el habla. Hay otro repositorio para el aprendizaje de máquinas/profundos aquí.
A dos:
- organizar estrellas
- Agrega más papeles
- Documentos para leer:
- Discurso = t: transductor para TTS y más allá
TTS
TTS
- DC-TTS [[Paper]] [Pytorch] [TensorFlow]
- Peecha de luz de Microsoft [[Paper]] [Código]
- Speechformer [[Paper]] [Código]
- Tacotrón no atentivo [documento] [Pytorch]
- Tacotron 2 [[documento]] [código]
- FCL-Taco2: versión rápida, controlable y liviana de Tacotron2 [[Paper]] [Código]
- Transformer TTS: síntesis de discurso neural con red de transformador [[documento]] [código]
- VITS: Autoencoder de variacional condicional con aprendizaje adversario para texto de extremo a extremo [[documento]] [Código]
- Reformer-TTS (adaptación de Reformer a TTS) [Código]
TTS basado en el aviso (ver [enlace])
Conversión de voz / clonación de voz / altavoz
- Stargan-VC: Conversión de voz no paralelo de muchos a muchos con redes adversas generativas de estrellas [[Paper]] [Código]
- Clonación de voz neural con pocas muestras de audio (Baidu) [[Paper]] [Código]
- Ensamble-VC: conversión de voz realista al ensamblar técnicas modernas de síntesis del habla [[documento]] [Código]
- UNET-TTS: Mejora de la transferencia de altavoz y estilo invisible en clonación de voz de un solo disparo [papel] [código]
- FragmentVC: conversión de voz de cualquiera a cualquiera de los fragmentos de voz de grano de extremo a extremo con atención [[Documento]] [Código]
- VectorIsquantizedCPC: codificación predictiva contrastante con vector vectorial para el descubrimiento de la unidad acústica y la conversión de voz [[Paper]] [Código]
- Cotatron: codificador de discurso guiado por transcripción para conversión de voz de cualquiera a muchas sin datos paralelos [[documento]] [Código]
- Again-VC: una conversión de voz de una sola vez utilizando orientación de activación y normalización de instancias adaptativas [[documento]] [código]
- Autovc: transferencia de estilo de voz de disparo cero con solo pérdida de autointerreno [[papel]] [código]
- SC-GLOWTTS: un modelo eficiente de texto de texto múltiple a la voz [código]
- Altavoz profundo: un sistema de incrustación de altavoz neural de extremo a extremo [[documento]] [Código]
- VQMIVC: Conversión de voz de una sola vez (cualquiera a cualquier otra) [[Paper]] [Código]
Estilo (emoción, prosodia)
- Smart-TTS solo TTS emocional [código]
- Transferencia de emoción del altavoz cruzado [[documento]] [Código]
- Autopst: transcripción de estilo de ritmo global sin transcripciones de texto [[Paper]] [Código]
- Transformando el espectro y la prosodia para la conversión de voz emocional con datos de entrenamiento no paralelos [[documento]] [Código]
- Estilización de TTS neural de referencia con consistencia del ciclo adversario [[documento]] [Código]
- Aprender representaciones latentes para el control y transferencia de estilo en la síntesis del habla de extremo a extremo (tacotron-Vae) [[documento]] [Código]
- Transferencia de estilo de audio neural de dominio de tiempo (NIPS 2017) [[documento]] [Código]
- Meta-Stylespeech y Stylespeech [[Paper]] [Código]
- Transferencia de emoción a través de un altavoz basada en la normalización de la capa de conditino de los altavoces y el entrenamiento semi-supervisado en texto a voz [[documento]] [Código]
Cruzado
- TTS de cambio de código de extremo a extremo con modelo de idioma interlingüe
- mandarín e inglés
- interlingüe y múltiple
- línea de base: "Construir un sistema TTS neural lingüe mixto con solo datos monolingües"
- Construyendo un sistema TTS neural lingüe mixto con solo datos monolingües
- Transferencia de aprendizaje, control de estilo y pérdida de reconstrucción de altavoces para texto multilipocador multilingüe de disparo cero en idiomas de baja recursos
- tiene muchas buenas referencias
- Explorando el descongelamiento con VQ-VAE multilingüe y monolingüe [documento] [Código]
Relacionado con la música
- Aprendiendo la belleza en las canciones: neural canto de voz Beautifier (ACL 2022) [[Paper]] [Código]
- Discurso a canto (interponido 2020) [[documento]] [Código]
- Diffsinger: Síntesis de voz de canto a través del mecanismo de difusión poco profundo (AAAI 2022) [[Paper]] [Código]
- Una red de traducción de música universal (ICLR 2019)
- Jukebox: un modelo generativo para la música (OpenAI) [Paper] [Código]
Kilets de herramientas
- IMS TOUCAN SINTHESIS DE SINTHESIS TOODS [documento] [Código]
- Crepe Pitch Tracker [Código]
- Speechbrain: herramientas útiles para facilitar la investigación del habla [código]
Voceros
Atención
Asr
- Hacia la comprensión del lenguaje hablado de extremo a extremo
Clasificación del habla, detección, filtro, etc.
- HTS-AT: un transformador de audio semántico jerárquico de token para la clasificación y detección de sonido [[documento]] [Código]
- Sistema VoiceFilter de Google AI [[Paper]] [Código]
- Reconocimiento mejorado de emociones del habla de extremo a extremo utilizando el mecanismo de atención propia y el aprendizaje multitarea (Interspeech 2019) [[documento]] [Código]
- Reconocimiento de emociones multimodal con características auto supervisadas basada en Tranformer Fusion [[Paper]] [Código]
- Reconocimiento de emociones del habla usando WAV2VEC 2.0 INCRETDINGS (Interspeech 2021) [[Documento]] [Código]
- Explorando WAV2VEC 2.0 Autorización fina para un mejor reconocimiento de emociones del habla [[documento]] [Código]
- Repensar los modelos CNN para la clasificación de audio [[documento]] [Código]
- Reconocimiento de emociones basado en EEG usando Sincnet [[Paper]] [Código]
Verificación de altavoces
- Agrupación atenta a la verificación del altavoz (IEEE SLT 2021) [[Documento]] [Código]
Lingüística
Conjuntos de datos
- VGGSOUND: un conjunto de datos de audio visual a gran escala [[Paper]] [Código]
- CSS10: una colección de datos de habla de altavoz único para 10 Langauges [código]
- Iemocap: 12 horas de datos audiovisuales con 10 actores masculinos y femeninos [Sitio web]
- Voxceleb [Repo]
Aumento de datos
- Audiomenciones (aumento rápido de datos de audio en Pytorch) [Código]
Alineadores
- Alineador forzado de Montreal
Datos (pre) procesamiento / aumento
- Procesamiento de datos (pre)
- Pronunciación coreana y romanización basada en el módulo wiktionario ko-plon lua [código]
- Procesamiento de señal de audio [código]
- Características fonológicas (para el documento "Características fonológicas para la síntesis de discurso multilingüe de 0 disparos") [[Documento]] [Código]
- Smart-G2p (Cambiar expresiones de inglés y kanji en oración coreana a la pronunciación coreana) [Código]
- Paquete de conversión de Kakao Grapheme a Foneme para "mandarín" [código]
- Herramienta de voz webver [código]
Verificación
- MCD [Repo]
- El código funciona, pero no estoy seguro de si es correcto. Los números de MCD son demasiado altos incluso para pares de audios similares.
Otra investigación que puede ayudar
- Síntesis de texto a imagen
- Audiomae (autoencoders enmascarados que escuchan) [Código]
Organizaciones
- DeepMind [Repo]
- Openai [Repo]
- Club House: WeeklyarxivTalk [Repo]
Otros repositorios para referirse - discurso incluido/relacionado
- Lista de investigadores del habla [Repo]
- Jackson-Kang [Repo]
- ML de Rosinity [Repo]
- IvalLesp [Repo]
- Pretraimiento del discurso de Ddlbojack [Repo]
- Transferencia de estilo de Fuzhenxin en texto [Repo]
Materiales de aprendizaje
- Conferencia de procesamiento de señal digital [enlace]
- El libro de discursos de Ratsgo [enlace]
- Curso YSDA en procesamiento del habla [código]
- NHN Video de YouTube hacia adelante [enlace]