Descargar voicefilter - Descargar el código fuente voicefilter

voicefilter

Pitón

1.0.0

Descargar

Voz de voz

Nota de Seung-Won (2020.10.25)

¡Hola a todos! Es Seung-Won de Minds Lab, Inc. Ha pasado mucho tiempo desde que lanzé este código abierto, y no esperaba que este repositorio llamara una gran cantidad de atención durante mucho tiempo. Me gustaría agradecer a todos por prestar tanta atención, y también el Sr. Quan Wang (el primer autor del documento de VoiceFilter) por referir este proyecto en su artículo.

En realidad, este proyecto fue realizado por mí cuando solo fueron 3 meses después de que comencé a estudiar el aprendizaje profundo y la separación del habla sin un supervisor en el campo relevante. En aquel entonces, no sabía qué es una compresión de la ley de potencia y la forma correcta de validar/probar los modelos. Ahora que he pasado más tiempo en el aprendizaje profundo y el discurso desde entonces (también escribí un artículo publicado en Interspeech 2020?), Puedo observar algunos errores obvios que he cometido. Esos problemas fueron planteados amablemente por los usuarios de GitHub; Consulte los problemas y retire las solicitudes para eso. Dicho esto, este repositorio puede ser bastante poco confiable, y me gustaría recordar a todos que usen este código bajo su propio riesgo (como se especifica en la licencia).

Desafortunadamente, no puedo permitirme tiempo extra para revisar este proyecto o revisar las solicitudes de problemas / extracción. En cambio, me gustaría ofrecer algunos consejos a recursos más nuevos y confiables:

VoiceFilter-Lite: esta es una versión más nueva de VoiceFilter presentada en Interspeech 2020, que también está escrita por el Sr. Quan Wang (y sus colegas en Google). Recomiendo verificar este documento, ya que se centró en una situación más realista en la que se necesita VoiceFilter.
Lista de implementación de VoiceFilter disponible en GitHub: en marzo de 2019, este repositorio fue la única implementación de código abierto disponible de VoiceFilter. Sin embargo, las implementaciones mucho mejores que merecen más atención estuvieron disponibles en todo Github. Por favor, revise y elija el que satisfaga su demanda.
Pytorch Lightning: En 2019, no pude encontrar una gran plantilla de proyecto de aprendizaje profundo para mí, por lo que yo y mis colegas habíamos usado este proyecto como plantilla para otros proyectos nuevos. Para las personas que buscan dicha plantilla de proyecto, me gustaría recomendar encarecidamente Pytorch Lightning. A pesar de que había hecho mucho esfuerzo para desarrollar mi propia plantilla durante 2019 (VoiceFilter -> Randwirenn -> Melnet -> Melgan), encontré Pytorch Lightning mucho mejor que mi propia plantilla.

Gracias por leer, y les deseo a todos una buena salud durante la situación de la pandemia global.

Saludos cordiales, Seung-Won Park

Implementación no oficial de Pytorch de Google AI: VoiceFilter: separación de voz dirigida por enmascaramiento de espectrograma condicionado por los altavoces.

Resultado

El entrenamiento tomó alrededor de 20 horas en AWS P3.2xLarge (NVIDIA V100).

Muestra de audio

Escuche la muestra de audio en la página web: http://swpark.me/voicefilter/

Métrico

SDR mediana	Papel	Nuestro
Antes de VoiceFilter	2.5	1.9
Después de VoiceFilter	12.6	10.2

SDR convergió a las 10, que es ligeramente más bajo que el de papel.

Dependencias

Python y paquetes
Este código se probó en Python 3.6 con Pytorch 1.0.1. Se pueden instalar otros paquetes por:
```
pip install -r requirements.txt
```
Misceláneas
FFMPEG-normalizar se usa para volver a muestrear y normalizar los archivos WAV. Consulte ReadMe.MD de FFMPEG-normalizar para la instalación.

Preparar el conjunto de datos

Descargar el conjunto de datos de Librispeech
Para replicar el papel de VoiceFilter, obtenga un conjunto de datos Librispeech en http://www.openslr.org/12/. train-clear-100.tar.gz (6.3g) contiene un discurso de 252 hablantes, y train-clear-360.tar.gz (23g) contiene 922 altavoces. Tampoco puede usar, pero cuantos más altavoces tenga en el conjunto de datos, más mejor VoiceFilter.
Volver a muestrear los archivos WAV
Primero, descifrar el archivo tar.gz a la carpeta deseada:
```
tar -xvzf train-clear-360.tar.gz
```
A continuación, copie utils/normalize-resample.sh al directorio raíz de la carpeta de datos descomprimidas. Entonces:
```
vim normalize-resample.sh # set "N" as your CPU core number.
chmod a+x normalize-resample.sh
./normalize-resample.sh # this may take long
```

Editar config.yaml

 cd config
cp default.yaml config.yaml
vim config.yaml

Archivos wav preprocesos
Para aumentar la velocidad de entrenamiento, realice STFT para cada archivos antes de capacitar por:
```
python generator.py -c [config yaml] -d [data directory] -o [output directory] -p [processes to run]
```
Esto creará 100,000 datos (trenes) + 1000 (prueba). (Alrededor de 160 g)

Filtro de voz de tren

Obtenga el modelo previamente para el sistema de reconocimiento de altavoces
VoiceFilter utiliza el Sistema de reconocimiento de altavoces (incrustaciones del vector D). Aquí, proporcionamos un modelo previo a la detención para obtener incrustaciones del vector D.
Este modelo fue entrenado con un conjunto de datos VoxCeleb2, donde las expresiones se ajustan aleatoriamente a los marcos de longitud de tiempo [70, 90]. Las pruebas se realizan con la ventana 80 / HOP 40 y han mostrado una tasa de error igual de aproximadamente el 1%. Los datos utilizados para la prueba se seleccionaron de los primeros 8 altavoces del conjunto de datos de prueba de VoxCeleb1, donde se seleccionan al azar 10 expresiones por cada altavoces.
ACTUALIZACIÓN : La evaluación en el par seleccionado VoxCeleb1 mostró 7.4% EER.
El modelo se puede descargar en este enlace RDRIVE.
Correr
Después de especificar train_dir , test_dir en config.yaml , ejecutar:
```
python trainer.py -c [config yaml] -e [path of embedder pt file] -m [name]
```
Esto creará chkpt/name y logs/name en el directorio base ( -b opción . En predeterminado)
Ver tensorboardx
```
tensorboard --logdir ./logs
```

Reanudando desde el punto de control

python trainer.py -c [config yaml] --checkpoint_path [chkpt/name/chkpt_{step}.pt] -e [path of embedder pt file] -m name

Evaluar

python inference.py -c [config yaml] -e [path of embedder pt file] --checkpoint_path [path of chkpt pt file] -m [path of mixed wav file] -r [path of reference wav file] -o [output directory]

Posibles mejoras

Pruebe el error de reconstrucción comprimida de ley de potencia como función de pérdida, en lugar de MSE. (Ver #14)

Autor

Parque Seungwon en Mindslab ([email protected], [email protected])

Licencia

Licencia de Apache 2.0

Este repositorio contiene códigos adaptados/copiados de los siguientes:

Utils/adabound.py desde https://github.com/luolc/adabound (Apache License 2.0)
Utils/audio.py desde https://github.com/keithito/tacotron (licencia del MIT)
Utils/hparams.py desde https://github.com/harryvolek/pytorch_speaker_verification (sin licencia especificada)
Utils/Normalize-resample.sh de https://unix.stackexchange.com/a/216475

Expandir

Información adicional

Versión 1.0.0
Tipo Pitón
Fecha de actualización 2025-07-14
tamaño 1.15MB
Proviene de Github

Aplicaciones relacionadas

ToDo Co

2025-03-22
Python Portfolio

2024-11-10
datamule python

2024-11-08
Herramienta de gráficos de datos de código abierto Redash v24.10.0

2024-11-27
plataforma de visualización de datos smartchart v6.9

2024-11-27
Herramienta de prueba de carga de langosta v2.32.0

2024-11-27

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ToDo Co

Pitón

1.0.0
Python Portfolio

Pitón
datamule python

Pitón
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo