Скачать voicefilter - Скачать исходный код voicefilter

voicefilter

Питон

1.0.0

Скачать

Голос

Примечание от Seung-Won (2020.10.25)

Всем привет! Это Seung-Won From Minds Lab, Inc. Прошло много времени с тех пор, как я выпустил этот открытый источник, и я не ожидал, что этот репозиторий долго привлечет такое большое внимание. Я хотел бы поблагодарить всех за такое внимание, а также мистер Куан Ван (первый автор газеты VoiceFilter) за то, что он направил этот проект в его статье.

На самом деле, этот проект был проведен мной, когда было всего через 3 месяца после того, как я начал изучать глубокое обучение и разделение речи без руководителя в соответствующей области. В то время я не знал, что такое сжатие в сфере власти, и правильный способ проверки/проверки моделей. Теперь, когда я потратил больше времени на глубокое обучение и речь с тех пор (я также написал статью, опубликованную в межспинке 2020?), Я могу наблюдать некоторые очевидные ошибки, которые я сделал. Эти проблемы были любезно подняты пользователями GitHub; Пожалуйста, обратитесь к вопросам и обращайте запросов на это. При этом этот репозиторий может быть довольно ненадежным, и я хотел бы напомнить каждому, чтобы они использовали этот код на свой собственный риск (как указано в лицензии).

К сожалению, я не могу позволить себе дополнительное время для пересмотра этого проекта или просмотра вопросов / запросов. Вместо этого я хотел бы предложить некоторые указатели на более новые, более надежные ресурсы:

VoiceFilter-Lite: Это более новая версия VoiceFilter, представленную на Interspeech 2020, которая также написана г-ном Куаном Вангом (и его коллегами в Google). Я настоятельно рекомендую проверить эту статью, так как она сосредоточена на более реалистичной ситуации, когда нужен голосовойфильтер.
Список реализации VoiceFilter, доступный на GitHub: В марте 2019 года этот репозиторий был единственной доступной реализацией VoiceFilter с открытым исходным кодом. Тем не менее, гораздо лучшие реализации, которые заслуживают большего внимания, стали доступны по всему GitHub. Пожалуйста, проверьте их и выберите тот, который отвечает вашему требованию.
Pytorch Lightning: Еще в 2019 году я не мог найти для себя отличный шаблон проекта глубокого обучения, поэтому я и мои коллеги использовали этот проект в качестве шаблона для других новых проектов. Для людей, которые ищут такой шаблон проекта, я хотел бы настоятельно рекомендовать Pytorch Lightning. Несмотря на то, что я предпринял большие усилия по разработке своего собственного шаблона в течение 2019 года (VoiceFilter -> Randwirenn -> Melnet -> Melgan), я обнаружил, что пирогатор молнии намного лучше, чем мой собственный шаблон.

Спасибо за чтение, и я желаю всем хорошего здоровья во время глобальной пандемической ситуации.

С уважением, Парк Сын-Вон

Неофициальная реализация Pytorch of Google AI: Voicefilter: Целевое разделение голоса посредством маскировки спектрограммы.

Результат

Обучение заняло около 20 часов на AWS P3.2Xlarge (NVIDIA V100).

Аудиорезд

Слушайте образец аудио на веб -странице: http://swpark.me/voicefilter/

Показатель

Медиана SDR	Бумага	Наш
Перед голосовымфильтер	2.5	1.9
после голосового фантазии	12.6	10.2

SDR сходился в 10, что немного ниже, чем у бумаги.

Зависимости

Питон и пакеты
Этот код был протестирован на Python 3.6 с Pytorch 1.0.1. Другие пакеты могут быть установлены:
```
pip install -r requirements.txt
```
Разнообразный
FFMPEG-Normalaze используется для повторной выборки и нормализации файлов WAV. См. Readme.md ffmpeg-Normalaze для установки.

Подготовьте набор данных

Скачать набор данных Librispeech
Чтобы повторить бумагу VoiceFilter, получите набор данных Librispeech по адресу http://www.openslr.org/12/. train-clear-100.tar.gz (6.3g) содержит речь 252 динамиков, а train-clear-360.tar.gz (23g) содержит 922 динамика. Вы можете использовать либо, но чем больше динамиков у вас есть в наборе данных, тем лучше будет голосовой фильтер.
Повторно повторно и нормализовать файлы wav
Во -первых, файл Unzip tar.gz в нужную папку:
```
tar -xvzf train-clear-360.tar.gz
```
Затем скопируйте utils/normalize-resample.sh в корневой каталог неразличимых папки данных. Затем:
```
vim normalize-resample.sh # set "N" as your CPU core number.
chmod a+x normalize-resample.sh
./normalize-resample.sh # this may take long
```

Редактировать config.yaml

 cd config
cp default.yaml config.yaml
vim config.yaml

Preprocess WAV -файлы
Чтобы повысить скорость обучения, выполните STFT для каждого файла, прежде чем тренировать:
```
python generator.py -c [config yaml] -d [data directory] -o [output directory] -p [processes to run]
```
Это создаст 100 000 данных (поезда) + 1000 (тест). (Около 160 г)

Поезда VoiceFilter

Получить предварительную модель для системы распознавания динамиков
VoiceFilter использует систему распознавания динамиков (D-векторные встраивания). Здесь мы предоставляем предварительную модель для получения D-векторов.
Эта модель была обучена набору данных VoxCeleb2, где высказывания случайным образом соответствуют длине времени [70, 90] кадров. Тесты выполняются с окном 80 / HOP 40 и показали равную частоту ошибок примерно на 1%. Данные, используемые для тестирования, были выбраны из первых 8 динамиков набора тестирования Voxceleb1, где 10 высказываний на каждый динамик выбраны случайным образом.
Обновление : оценка на выбранной паре Voxceleb1 показала 7,4% EER.
Модель может быть загружена по этой ссылке GDRIVE.
Бегать
После указания train_dir , test_dir at config.yaml , запустите:
```
python trainer.py -c [config yaml] -e [path of embedder pt file] -m [name]
```
Это создаст chkpt/name и logs/name в Base Directory ( -b опция . По умолчанию)
Посмотреть Tensorboardx
```
tensorboard --logdir ./logs
```

Возобновляя с контрольной точки

python trainer.py -c [config yaml] --checkpoint_path [chkpt/name/chkpt_{step}.pt] -e [path of embedder pt file] -m name

Оценивать

python inference.py -c [config yaml] -e [path of embedder pt file] --checkpoint_path [path of chkpt pt file] -m [path of mixed wav file] -r [path of reference wav file] -o [output directory]

Возможные улучшения

Попробуйте сжатую сжатую реконструкцию ошибки реконструкции в качестве функции потерь вместо MSE. (См. #14)

Автор

Seungwon Park в Mindslab ([email protected], [email protected])

Лицензия

Apache License 2.0

Этот репозиторий содержит коды, адаптированные/скопированные из последующих действий:

utils/adabound.py от https://github.com/luolc/adabound (Apache License 2.0)
utils/audio.py от https://github.com/keithito/tacotron (лицензия MIT)
utils/hparams.py от https://github.com/harryvolek/pytorch_speaker_verification (лицензия не указана)
utils/normalize-resample.sh от https://unix.stackexchange.com/a/216475

Расширять

Дополнительная информация