تنزيل voicefilter - تنزيل رمز المصدر voicefilter

voicefilter

بايثون

1.0.0

تنزيل

صوت الصوتية

ملاحظة من Seung-Won (2020.10.25)

مرحباً جميعاً! لقد مرّ Seung-Won From Minds Lab ، Inc. لقد مضى وقت طويل منذ أن أصدرت هذا المصدر المفتوح ، ولم أكن أتوقع أن يحظى هذا المستودع بمثل هذا الاهتمام لفترة طويلة. أود أن أشكر الجميع على هذا الاهتمام ، وكذلك السيد كوان وانغ (المؤلف الأول لورقة FoundFilter) لإحالة هذا المشروع في ورقته.

في الواقع ، تم تنفيذ هذا المشروع من قبلي عندما كان بعد 3 أشهر فقط من بدء دراسة التعلم العميق والكلام دون مشرف في المجال ذي الصلة. في ذلك الوقت ، لم أكن أعرف ما هو ضغط قانون القوة ، والطريقة الصحيحة للتحقق من/اختبار النماذج. الآن بعد أن أمضيت وقتًا أطول في التعلم العميق والكلام منذ ذلك الحين (كتبت أيضًا ورقة تم نشرها في Interspeech 2020؟) ، يمكنني ملاحظة بعض الأخطاء الواضحة التي ارتكبتها. وقد أثيرت هذه القضايا بلطف من قبل مستخدمي جيثب. يرجى الرجوع إلى المشكلات وسحب الطلبات لذلك. ومع ذلك ، يمكن أن يكون هذا المستودع غير موثوق به تمامًا ، وأود أن أذكر الجميع باستخدام هذا الرمز على مسؤوليتهم الخاصة (كما هو محدد في الترخيص).

لسوء الحظ ، لا يمكنني تحمل وقت إضافي في مراجعة هذا المشروع أو مراجعة المشكلات / طلبات السحب. بدلاً من ذلك ، أود أن أقدم بعض المؤشرات لموارد أحدث وأكثر موثوقية:

VoiceFilter-Lite: هذا إصدار أحدث من Voicefilter المقدمة في Interspeech 2020 ، والذي كتبه أيضًا السيد Quan Wang (وزملاؤه في Google). أوصي بشدة بالتحقق من هذه الورقة ، لأنها ركزت على وضع أكثر واقعية حيث تكون هناك حاجة إلى ملفات صوتية.
قائمة تنفيذ SOUNDFILTER المتاحة على GitHub: في مارس 2019 ، كان هذا المستودع هو التنفيذ الوحيد المتاح للمصدر المفتوح لـ VoiceFilter. ومع ذلك ، أصبحت التطبيقات الأفضل التي تستحق المزيد من الاهتمام متاحة عبر GitHub. يرجى التحقق منها ، واختيار الشخص الذي يلبي طلبك.
Pytorch Lightning: مرة أخرى في عام 2019 ، لم أتمكن من العثور على قالب مشروع رائع للتعلم بنفسي ، لذلك استخدمت أنا وزملائي هذا المشروع كقالب للمشاريع الجديدة الأخرى. بالنسبة للأشخاص الذين يبحثون عن قالب المشروع هذا ، أود أن أوصي بشدة بايتورش بايتنينج. على الرغم من أنني بذلت الكثير من الجهد لتطوير قالب خاص بي خلال عام 2019 (Voicefilter -> Randwirenn -> Melnet -> Melgan) ، وجدت Pytorch Lightning أفضل بكثير من قالب الخاص بي.

شكرا للقراءة ، وأتمنى للجميع صحة جيدة خلال الوضع الوبائي العالمي.

مع أطيب التحيات ، Seung-Won Park

تنفيذ Pytorch غير رسمي لـ Google AI's: Voicefilter: الفصل الصوتي المستهدف بواسطة إخفاء الطيف المكيف.

نتيجة

استغرق التدريب حوالي 20 ساعة على AWS P3.2xlarge (NVIDIA V100).

عينة الصوت

استمع إلى نموذج الصوت في صفحة الويب: http://swpark.me/voicefilter/

متري

وسيط SDR	ورق	لنا
قبل صوت الصوت	2.5	1.9
بعد التصفية الصوتية	12.6	10.2

تقارب SDR في 10 ، وهو أقل قليلاً من الورق.

التبعيات

بيثون والحزم
تم اختبار هذا الرمز على Python 3.6 مع Pytorch 1.0.1. يمكن تثبيت حزم أخرى بواسطة:
```
pip install -r requirements.txt
```
متنوع
يتم استخدام FFMPEG-Normalize لإعادة أخذ عينات وتطبيع ملفات WAV. انظر readme.md من FFMPEG-NORMINCY للتثبيت.

إعداد مجموعة البيانات

قم بتنزيل مجموعة بيانات Librispeech
لتكرار ورقة الصوتية ، احصل على مجموعة بيانات Librispeech على http://www.openslr.org/12/. يحتوي train-clear-100.tar.gz (6.3g) على خطاب من 252 مكبرات صوت ، ويحتوي train-clear-360.tar.gz (23g) على 922 مكبرات صوت. يمكنك استخدام أي منهما ، ولكن كلما زاد عدد مكبرات الصوت التي لديك في مجموعة البيانات ، كلما كان تصفية الصوت أفضل.
إعادة تشكيل ملفات WAV وتطبيعها
أولاً ، ملف UNXIP tar.gz إلى المجلد المطلوب:
```
tar -xvzf train-clear-360.tar.gz
```
بعد ذلك ، نسخ utils/normalize-resample.sh إلى دليل جذر مجلد البيانات غير المدمج. ثم:
```
vim normalize-resample.sh # set "N" as your CPU core number.
chmod a+x normalize-resample.sh
./normalize-resample.sh # this may take long
```

تحرير config.yaml

 cd config
cp default.yaml config.yaml
vim config.yaml

ملفات WAV قبل المعالجة
من أجل زيادة سرعة التدريب ، قم بإجراء STFT لكل ملفات قبل التدريب بواسطة:
```
python generator.py -c [config yaml] -d [data directory] -o [output directory] -p [processes to run]
```
سيؤدي ذلك إلى إنشاء بيانات 100000 (قطار) + 1000 (اختبار). (حوالي 160 جم)

تدريب الصوتية

احصل على نموذج ما قبل المسبق لنظام التعرف على المتحدثين
يستخدم VoiceFilter نظام التعرف على السماعات (D-Vector Embeddings). هنا ، نحن نقدم نموذجًا مسبقًا للحصول على تضمينات D-Vector.
تم تدريب هذا النموذج مع مجموعة بيانات VoxCeCeCeLEB2 ، حيث تتناسب الكلام بشكل عشوائي مع طول الوقت [70 ، 90] إطارات. تتم الاختبارات مع النافذة 80 / HOP 40 وأظهرت معدل خطأ متساوٍ بنحو 1 ٪. تم اختيار البيانات المستخدمة للاختبار من أول 8 مكبرات صوت لمجموعة بيانات اختبار VoxceCeCeleb1 ، حيث يتم اختيار 10 كلمات لكل مكبرات صوت بشكل عشوائي.
تحديث : أظهر التقييم على زوج VoxceCeCeleb1 6.4 ٪ EER.
يمكن تنزيل النموذج على رابط GDrive هذا.
يجري
بعد تحديد train_dir ، test_dir في config.yaml ، تشغيل:
```
python trainer.py -c [config yaml] -e [path of embedder pt file] -m [name]
```
سيؤدي ذلك إلى إنشاء chkpt/name and logs/name في Directory Base ( -b . في الافتراضي)
عرض Tensorboardx
```
tensorboard --logdir ./logs
```

استئناف من نقطة التفتيش

python trainer.py -c [config yaml] --checkpoint_path [chkpt/name/chkpt_{step}.pt] -e [path of embedder pt file] -m name

يقيم

python inference.py -c [config yaml] -e [path of embedder pt file] --checkpoint_path [path of chkpt pt file] -m [path of mixed wav file] -r [path of reference wav file] -o [output directory]

التحسينات المحتملة

جرب خطأ إعادة الإعمار المضغوط في قانون السلطة كدالة خسارة ، بدلاً من MSE. (انظر #14)

مؤلف

Seungwon Park at Mindslab ([email protected] ، [email protected])

رخصة

ترخيص Apache 2.0

يحتوي هذا المستودع على رموز تكييف/نسخ من ما يلي:

utils/adabound.py من https://github.com/luolc/adabound (Apache License 2.0)
utils/audio.py من https://github.com/keithito/tacotron (ترخيص MIT)
utils/hparams.py من https://github.com/harryvolek/pytorch_speaker_verification (لم يتم تحديد ترخيص)
utils/stalday-resample.sh من https://unix.stackexchange.com/a/216475

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع بايثون
وقت التحديث 2025-07-14
الحجم 1.15MB
من Github

تطبيقات ذات صلة

ToDo Co

2025-03-22
Python Portfolio

2024-11-10
datamule python

2024-11-08
Redash أداة مخطط البيانات مفتوحة المصدر v24.10.0

2024-11-27
منصة تصور البيانات SmartChart v6.9

2024-11-27
أداة اختبار حمل الجراد v2.32.0

2024-11-27

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ToDo Co

بايثون

1.0.0
Python Portfolio

بايثون
datamule python

بايثون
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل