Descarga magphase - Descarga del código fuente magphase

magphase

Código Fuente de IA

v2.0

Descargar

Vocoder magfase

Sistema de análisis/síntesis de voz para TTS y aplicaciones relacionadas.

Este software se basa en el método descrito en el documento:

F. Espic, C. Valentini-Botinhao y S. King, "Modelado directo de magnitud y espectros de fase para la síntesis estadística del habla paramétrica", en Proc. Interpech, Estocolmo, Suecia, agosto de 2017.

@ Autor: Felipe Espic

Más información en http://www.felipeespic.com/magphase/

I. Nuevo en la versión 2.0 (abril de 2018)

Soporte de tasa de trama constante.
Calidad de sonido mejorada.
Dos tipos de postfilter disponibles.
Número seleccionable de coeficientes para características de fase ( real e imágenes ).
Número seleccionable de coeficientes para la función de magnitud ( MAG ).

II. Descripción

Este es un sistema de análisis/síntesis de forma de onda del habla utilizado en la síntesis de habla paramétrica estadística (SPSS).

El módulo de análisis extrae cuatro transmisiones de características que describen espectros de magnitud, espectros de fase y F0. Estas características se pueden usar para entrenar un modelo de regresión (por ejemplo, DNN, LSTM, Hmm., Etc.) Entonces, se pueden generar valores predichos. El módulo de síntesis toma estas características en la entrada para generar la forma de onda sintetizada final.

Puntos clave:

Evite los pasos de estimación en la medida de lo posible (sin aperiodicidades, envoltura espectral o estimación armónica, etc.)
Extracción robusta y modelado de espectros de fase (vocoders convencionales simplemente crean fase artificial en la salida).
No se requiere no requerido fase.
Utiliza operaciones rápidas durante la síntesis (p. Ej., FFT, PSOLA).
Reduce notablemente "zumbido" y "fasiness".
Muchas otras aplicaciones y mejoras aún no exploradas.

Iii. Licencia:

Consulte el archivo de licencia para obtener más detalles.

IV. Requisitos:

OS: Linux (MacOSX próximamente)
Python 2.7
Paquetes de Python: Numpy, Scipy, Soundfile, Matplotlib

V. Instalar:

Instale Pyhton 2.7 y los paquetes requeridos utilizando el Administrador de paquetes de su distribución o utilizando el comando PIP (Recomendado). p.ej,

 pip install numpy scipy soundfile matplotlib

Descargar magphase: git clone https://github.com/CSTR-Edinburgh/magphase.git
Descargue y compile SPTK y Reaper por:

 cd magphase/tools
./download_and_compile_tools.sh

Esto compilará y configurará SPTK y Reaper automáticamente para usted ... ¡y eso es todo!

VI. Uso:

Simplemente vaya a /demos , lea las instrucciones dentro de los scripts de demostración, que son muy desglosivos. Deberían salir fuera de la caja ejecutando python <demo_script> .

Recomendamos que se reproduce en primer lugar con demo_copy_synthesis_lossless.py , y luego demo_copy_synthesis_low_dim.py , ambos realizan rutinas de análisis/síntesis.

Luego, puede modificar los scripts de demostración para satisfacer sus necesidades.

Nota: Solo recuerde ejecutar los scripts desde sus ubicaciones.

Vii. Uso de Magphase con Merlin Toolkit:

Proporcionamos dos demostraciones distribuidas con la distribución oficial de Merlín. Estos muestran ejemplos de la de Merlín con integración de la magfase:

TEXTO T-DISECH: Demo SLT_ARTIC de Merlín (versiones de subconjunto pequeñas y completas)
Conversión de voz: demostración de conversión de voz de Merlín (probada más o menos)

Viii. Colaboración:

Necesitamos ayuda para mejorar este software. Puedes colaborar por:

Construyendo voces TTS usando Merlín y Magphase y comparar con otros vocoders, por ejemplo, mundo. Entonces, díganos sus resultados. Hemos probado la magfasa solo con algunas voces y es necesario cubrir una gama más amplia. Recientemente hemos solucionado algunos errores que han salido gracias a las personas que informan sus resultados utilizando nuevos datos.
Implementación de soporte de velocidad de cuadro variable nativa en Merlin. Magphase funciona en una moda de velocidad de fotogramas variable (tono sincrónico).

Expandir

Información adicional

Versión v2.0
Tipo Código Fuente de IA
Fecha de actualización 2025-08-21
tamaño 2.49MB
Proviene de Github

Aplicaciones relacionadas

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo