Download voicefixer - تنزيل رمز المصدر voicefixer

؟ Voicefixer
- العرض التوضيحي
- الاستخدام
  - سطر الأوامر
  - تطبيق سطح المكتب
  - أمثلة بيثون
  - عامل ميناء
  - ميزات أخرى
- مواد
- تغيير السجل

؟ Voicefixer

يهدف Voicefixer إلى استعادة الكلام البشري بغض النظر عن مدى خطورة تدهوره. يمكنه التعامل مع الضوضاء ، وإعادة التثبيت ، ودقة منخفضة (2 كيلو هرتز ~ 44.1 كيلو هرتز) وتأثير القطع (0.1-1.0 عتبة) داخل نموذج واحد.

توفر هذه الحزمة:

جهاز صوت صوتي مسبق ، والذي يعتمد على المتفرج العصبي.
مسبق 44.1 كيلو كولومتر المتحدث العصبي المستقلة.

رئيسي

إذا وجدت هذا الريبو مفيدًا ، فيرجى التفكير في الإشارة إلى أو

 @misc { liu2021voicefixer ,   
     title = { VoiceFixer: Toward General Speech Restoration With Neural Vocoder } ,   
     author = { Haohe Liu and Qiuqiang Kong and Qiao Tian and Yan Zhao and DeLiang Wang and Chuanzeng Huang and Yuxuan Wang } ,  
     year = { 2021 } ,  
     eprint = { 2109.13731 } ,  
     archivePrefix = { arXiv } ,  
     primaryClass = { cs.SD }  
 }

العرض التوضيحي

يرجى زيارة الصفحة التجريبية لعرض ما يمكن أن يفعله VoiceFixer.

الاستخدام

تشغيل أوضاع

وضع	وصف
`0`	النموذج الأصلي (المقترح افتراضيًا)
`1`	أضف وحدة المعالجة المسبقة (إزالة التردد الأعلى)
`2`	وضع القطار (قد يعمل أحيانًا على خطاب حقيقي متدهور بشكل خطير)
`all`	قم بتشغيل جميع الأوضاع - سيتم إخراج ملف WAV 1 لكل وضع مدعوم.

سطر الأوامر

أولاً ، قم بتثبيت Voicefixer عبر PIP:

pip install git+https://github.com/haoheliu/voicefixer.git

معالجة ملف:

 # Specify the input .wav file. Output file is outfile.wav.
voicefixer --infile test/utterance/original/original.wav
# Or specify a output path
voicefixer --infile test/utterance/original/original.wav --outfile test/utterance/original/original_processed.wav

معالجة الملفات في مجلد:

voicefixer --infolder /path/to/input --outfolder /path/to/output

تغيير الوضع (الوضع الافتراضي هو 0):

voicefixer --infile /path/to/input.wav --outfile /path/to/output.wav --mode 1

قم بتشغيل جميع الأوضاع:

 # output file saved to `/path/to/output-modeX.wav`.
voicefixer --infile /path/to/input.wav --outfile /path/to/output.wav --mode all

قبل تحميل الأوزان فقط دون أي معالجة فعلية:

voicefixer --weight_prepare

لمزيد من معلومات المساعدة ، يرجى التشغيل:

voicefixer -h

تطبيق سطح المكتب

العرض التوضيحي على YouTube (شكرًا Justin John)

تثبيت Voicefixer عبر PIP:

pip install voicefixer

يمكنك اختبار عينات الصوت على سطح المكتب الخاص بك عن طريق تشغيل موقع الويب (مدعوم من STREMLIT)

استنساخ الريبو أولا.

git clone https://github.com/haoheliu/voicefixer.git
cd voicefixer

️ بالنسبة لمستخدمي Windows ، يرجى التأكد من تثبيت WGET وإضافة أمر WGET إلى مسار النظام (شكرًا @justinjohn0306).

تهيئة وبدء صفحة الويب.

 # Run streamlit 
streamlit run test/streamlit.py

إذا قمت بتشغيل لأول مرة: قد تترك صفحة الويب فارغة لعدة دقائق لتنزيل النماذج. يمكنك الخروج من المحطة لتنزيل التقدم.
يمكنك استخدام ملف الكلام منخفض الجودة الذي قدمناه لتشغيل الاختبار. ستبدو الصفحة بعد المعالجة كما يلي.

شكل

للمستخدمين من Main Land China ، إذا واجهت صعوبة في تنزيل نقطة التفتيش. يمكنك الوصول إليها بدلاً من ذلك على 百度网盘 (提取密码: QIS6). يرجى تنزيل نقاط التفتيش في الداخل ووضعهما في المجلد التالي.
- ضع vf.ckpt داخل ~/.cache/voicefixer/analysis_module/نقاط التفتيش . (يمثل "~" الدليل المنزلي الخاص بك)
- مكان نموذج . (يمثل "~" الدليل المنزلي الخاص بك)

أمثلة بيثون

أولاً ، قم بتثبيت Voicefixer عبر PIP:

pip install voicefixer

ثم قم بتشغيل البرامج النصية التالية لتشغيل الاختبار:

git clone https://github.com/haoheliu/voicefixer.git ; cd voicefixer
python3 test/test.py # test script

نتوقع أن يمنحك الإخراج التالي:

Initializing VoiceFixer...
Test voicefixer mode 0, Pass
Test voicefixer mode 1, Pass
Test voicefixer mode 2, Pass
Initializing 44.1kHz speech vocoder...
Test vocoder using groundtruth mel spectrogram...
Pass

يحتوي Test/Test.py بشكل أساسي على اختبار واجهات برمجة التطبيقات التالية:

VoiceFixer.Restore
vocoder.oracle

...

# TEST VOICEFIXER
## Initialize a voicefixer
print ( "Initializing VoiceFixer..." )
voicefixer = VoiceFixer ()
# Mode 0: Original Model (suggested by default)
# Mode 1: Add preprocessing module (remove higher frequency)
# Mode 2: Train mode (might work sometimes on seriously degraded real speech)
for mode in [ 0 , 1 , 2 ]:
    print ( "Testing mode" , mode )
    voicefixer . restore ( input = os . path . join ( git_root , "test/utterance/original/original.flac" ), # low quality .wav/.flac file
                       output = os . path . join ( git_root , "test/utterance/output/output_mode_" + str ( mode ) + ".flac" ), # save file path
                       cuda = False , # GPU acceleration
                       mode = mode )
    if ( mode != 2 ):
        check ( "output_mode_" + str ( mode ) + ".flac" )
    print ( "Pass" )

# TEST VOCODER
## Initialize a vocoder
print ( "Initializing 44.1kHz speech vocoder..." )
vocoder = Vocoder ( sample_rate = 44100 )

### read wave (fpath) -> mel spectrogram -> vocoder -> wave -> save wave (out_path)
print ( "Test vocoder using groundtruth mel spectrogram..." )
vocoder . oracle ( fpath = os . path . join ( git_root , "test/utterance/original/p360_001_mic1.flac" ),
               out_path = os . path . join ( git_root , "test/utterance/output/oracle.flac" ),
               cuda = False ) # GPU acceleration

...

يمكنك استنساخ هذا الريبو ومحاولة تشغيل test.py داخل مجلد الاختبار .

عامل ميناء

في الوقت الحالي ، لم يتم نشر صورة Docker وتحتاج إلى تصميمها محليًا ، ولكن بهذه الطريقة تتأكد من قيامك بتشغيلها بكل التكوين المتوقع. يبلغ حجم الصورة المولدة حوالي 10 جيجابايت ويرجع ذلك أساسًا إلى التبعيات التي تستهلك حوالي 9.8 جيجابايت بمفردها.

ومع ذلك ، فإن الطبقة التي تحتوي على voicefixer هي آخر طبقة مضاف ، مما يجعل أي إعادة بناء إذا قمت بتغيير المصادر صغيرة نسبيًا (حوالي 200 ميجابايت في وقت واحد مع تحديث الأوزان على بناء الصورة).

يمكن مشاهدة Dockerfile هنا.

بعد استنساخ الريبو:

OS اللاأدري

 # To build the image
cd voicefixer
docker build -t voicefixer:cpu .

# To run the image
docker run --rm -v " $( pwd ) /data:/opt/voicefixer/data " voicefixer:cpu < all_other_cli_args_here >

# # Example: docker run --rm -v "$(pwd)/data:/opt/voicefixer/data" voicefixer:cpu --infile data/my-input.wav --outfile data/my-output.mode-all.wav --mode all

البرنامج النصي الملفات: Linux و MacOS

 # To build the image
cd voicefixer
./docker-build-local.sh

# To run the image
./run.sh < all_other_cli_args_here >

# # Example: ./run.sh --infile data/my-input.wav --outfile data/my-output.mode-all.wav --mode all

ميزات أخرى

كيف تستخدم Vocoder الخاص بك ، مثل HIFI-GAN التي تم تدريبها مسبقًا؟

تحتاج أولاً إلى كتابة وظيفة المساعد التالية مع النموذج الخاص بك. على غرار وظيفة المساعد في هذا الريبو: https://github.com/haoheliu/voicefixer/blob/main/voicefixer/vocoder/base.py#l35

    def convert_mel_to_wav(mel):
        " " "
        :param non normalized mel spectrogram: [batchsize, 1, t-steps, n_mel]
        :return: [batchsize, 1, samples]
        " " "
        return wav

ثم تمرير هذه الوظيفة إلى VoiceFixer.restore ، على سبيل المثال:

 voicefixer.restore(input="", # input wav file path
                   output="", # output wav file path
                   cuda=False, # whether to use gpu acceleration
                   mode = 0,
                   your_vocoder_func = convert_mel_to_wav)

ملحوظة: