ดาวน์โหลด voicefilter - ดาวน์โหลดซอร์สโค้ด voicefilter

voicefilter

หลาม

1.0.0

ดาวน์โหลด

เสียงกรอง

หมายเหตุจาก Seung-Won (2020.10.25)

สวัสดีทุกคน! มันคือ Seung-won จาก Minds Lab, Inc. มันเป็นเวลานานแล้วที่ฉันได้เปิดตัวโอเพนซอร์ซนี้และฉันไม่ได้คาดหวังว่าที่เก็บนี้จะดึงดูดความสนใจเป็นเวลานาน ฉันขอขอบคุณทุกคนที่ให้ความสนใจเช่นนี้และ Mr. Quan Wang (ผู้เขียนคนแรกของ The Voicefilter Paper) สำหรับการอ้างอิงโครงการนี้ในบทความของเขา

ที่จริงแล้วโครงการนี้ทำโดยฉันเมื่อมันเป็นเพียง 3 เดือนหลังจากที่ฉันเริ่มเรียนการเรียนรู้อย่างลึกซึ้งและการแยกการพูดโดยไม่มีหัวหน้างานในสาขาที่เกี่ยวข้อง ย้อนกลับไปตอนนั้นฉันไม่รู้ว่าอะไรคือการบีบอัดกฎหมายและวิธีที่ถูกต้องในการตรวจสอบ/ทดสอบโมเดล ตอนนี้ฉันใช้เวลามากขึ้นในการเรียนรู้และพูดอย่างลึกซึ้งตั้งแต่นั้นมา (ฉันยังเขียนบทความที่ตีพิมพ์ที่ Interspeech 2020?) ฉันสามารถสังเกตข้อผิดพลาดที่ชัดเจนที่ฉันได้ทำ ปัญหาเหล่านั้นได้รับการยกขึ้นโดยผู้ใช้ GitHub; โปรดดูปัญหาและดึงคำขอสำหรับเรื่องนั้น ที่ถูกกล่าวว่าที่เก็บนี้ไม่น่าเชื่อถือและฉันอยากจะเตือนให้ทุกคนใช้รหัสนี้ด้วยความเสี่ยงของตนเอง (ตามที่ระบุไว้ในใบอนุญาต)

น่าเสียดายที่ฉันไม่สามารถจ่ายเวลาพิเศษในการแก้ไขโครงการนี้หรือตรวจสอบปัญหา / คำขอดึง แต่ฉันต้องการเสนอพอยน์เตอร์ให้กับทรัพยากรที่ใหม่กว่าและเชื่อถือได้มากขึ้น:

VoiceFilter-Lite: นี่เป็นเวอร์ชั่นใหม่ของ VoiceFilter ที่นำเสนอที่ Interspeech 2020 ซึ่งเขียนโดย Mr. Quan Wang (และเพื่อนร่วมงานของเขาที่ Google) ฉันขอแนะนำให้ตรวจสอบบทความนี้เนื่องจากมันมุ่งเน้นไปที่สถานการณ์ที่สมจริงยิ่งขึ้นซึ่งจำเป็นต้องใช้เสียง
รายชื่อการใช้งาน VoiceFilter ที่มีอยู่ใน GitHub: ในเดือนมีนาคม 2019 ที่เก็บนี้เป็นเพียงการใช้งานโอเพนซอร์ซของ VoiceFilter เท่านั้น อย่างไรก็ตามการใช้งานที่ดีกว่ามากที่สมควรได้รับความสนใจมากขึ้นทั่ว GitHub โปรดตรวจสอบพวกเขาและเลือกที่ตรงกับความต้องการของคุณ
Pytorch Lightning: ย้อนกลับไปในปี 2562 ฉันไม่สามารถหาเทมเพลตโครงการเรียนรู้ที่ลึกล้ำสำหรับตัวเองได้ดังนั้นฉันและเพื่อนร่วมงานของฉันใช้โครงการนี้เป็นเทมเพลตสำหรับโครงการใหม่อื่น ๆ สำหรับผู้ที่กำลังค้นหาเทมเพลตโครงการดังกล่าวฉันอยากจะแนะนำ Pytorch Lightning อย่างยิ่ง แม้ว่าฉันจะพยายามอย่างมากในการพัฒนาเทมเพลตของตัวเองในช่วงปี 2019 (Voicefilter -> Randwirenn -> Melnet -> Melgan) ฉันพบ Pytorch Lightning ดีกว่าเทมเพลตของฉันเองมาก

ขอบคุณสำหรับการอ่านและฉันขอให้ทุกคนมีสุขภาพที่ดีในระหว่างสถานการณ์การระบาดของโลก

ขอแสดงความนับถือ Seung-won Park

การใช้งาน Pytorch อย่างไม่เป็นทางการของ Google AI's: VoiceFilter: การแยกเสียงที่กำหนดเป้าหมายโดยการปิดบังสเปกโตรแกรมแบบลำโพง

ผลลัพธ์

การฝึกอบรมใช้เวลาประมาณ 20 ชั่วโมงสำหรับ AWS P3.2xlarge (Nvidia V100)

ตัวอย่างเสียง

ฟังตัวอย่างเสียงที่หน้าเว็บ: http://swpark.me/voicefilter/

ตัวชี้วัด

SDR ค่ามัธยฐาน	กระดาษ	ของเรา
ก่อนเสียงกรอง	2.5	1.9
หลังจากเสียงกรอง	12.6	10.2

SDR มาบรรจบกันที่ 10 ซึ่งต่ำกว่ากระดาษเล็กน้อย

การพึ่งพาอาศัยกัน

งูเหลือมและแพ็คเกจ
รหัสนี้ถูกทดสอบใน Python 3.6 ด้วย Pytorch 1.0.1 แพ็คเกจอื่น ๆ สามารถติดตั้งได้โดย:
```
pip install -r requirements.txt
```
เบ็ดเตล็ด
FFMPEG-Normalize ใช้สำหรับการสุ่มตัวอย่างใหม่และทำให้ไฟล์ WAV เป็นมาตรฐาน ดู readme.md ของ ffmpeg-normalize สำหรับการติดตั้ง

เตรียมชุดข้อมูล

ดาวน์โหลดชุดข้อมูล librispeech
หากต้องการทำซ้ำกระดาษ VoiceFilter ให้รับชุดข้อมูล librispeech ที่ http://www.openslr.org/12/ train-clear-100.tar.gz (6.3g) มีคำพูดของลำโพง 252 และ train-clear-360.tar.gz (23G) มีลำโพง 922 คุณอาจใช้อย่างใดอย่างหนึ่ง แต่ยิ่งคุณมีลำโพงมากขึ้นในชุดข้อมูลยิ่งเสียงที่ดีขึ้นก็จะยิ่งดีขึ้นเท่านั้น
Resample & Normalize WAV ไฟล์
ก่อนอื่นไฟล์ unzip tar.gz ไปยังโฟลเดอร์ที่ต้องการ:
```
tar -xvzf train-clear-360.tar.gz
```
ถัดไปคัดลอก utils/normalize-resample.sh ไปยังรูทไดเรกทอรีของโฟลเดอร์ข้อมูลที่ยังไม่ซิป แล้ว:
```
vim normalize-resample.sh # set "N" as your CPU core number.
chmod a+x normalize-resample.sh
./normalize-resample.sh # this may take long
```

แก้ไข config.yaml

 cd config
cp default.yaml config.yaml
vim config.yaml

ไฟล์ WAV ประมวลผลล่วงหน้า
เพื่อเพิ่มความเร็วในการฝึกอบรมให้ดำเนินการ STFT สำหรับแต่ละไฟล์ก่อนการฝึกอบรมโดย:
```
python generator.py -c [config yaml] -d [data directory] -o [output directory] -p [processes to run]
```
สิ่งนี้จะสร้างข้อมูล 100,000 (รถไฟ) + 1,000 (ทดสอบ) (ประมาณ 160 กรัม)

รถไฟเสียง

รับแบบจำลองก่อนหน้าสำหรับระบบการจดจำลำโพง
VoiceFilter ใช้ระบบการจดจำลำโพง (D-Vector Embeddings) ที่นี่เรามีแบบจำลองที่ได้รับการฝึกฝนสำหรับการได้รับ D-Vector Embeddings
โมเดลนี้ได้รับการฝึกฝนด้วยชุดข้อมูล Voxceleb2 ซึ่งคำพูดนั้นมีความยาวตามความยาว [70, 90] แบบสุ่ม การทดสอบจะทำด้วยหน้าต่าง 80 / Hop 40 และแสดงอัตราความผิดพลาดที่เท่ากันประมาณ 1% ข้อมูลที่ใช้สำหรับการทดสอบถูกเลือกจาก 8 ลำโพงแรกของชุดข้อมูลการทดสอบ Voxceleb1 โดยที่ 10 คำพูดต่อลำโพงแต่ละตัวถูกสุ่มเลือก
อัปเดต : การประเมินผลของคู่ที่เลือก Voxceleb1 แสดงให้เห็นว่า 7.4% EER
สามารถดาวน์โหลดโมเดลได้ที่ลิงค์ GDRIVE นี้
วิ่ง
หลังจากระบุ train_dir test_dir ที่ config.yaml , Run:
```
python trainer.py -c [config yaml] -e [path of embedder pt file] -m [name]
```
สิ่งนี้จะสร้าง chkpt/name และ logs/name ที่ไดเรกทอรีพื้นฐาน (ตัวเลือก -b . ในค่าเริ่มต้น)
ดู tensorboardx
```
tensorboard --logdir ./logs
```

กลับมาจากจุดตรวจสอบ

python trainer.py -c [config yaml] --checkpoint_path [chkpt/name/chkpt_{step}.pt] -e [path of embedder pt file] -m name

ประเมิน

python inference.py -c [config yaml] -e [path of embedder pt file] --checkpoint_path [path of chkpt pt file] -m [path of mixed wav file] -r [path of reference wav file] -o [output directory]

การปรับปรุงที่เป็นไปได้

ลองใช้ข้อผิดพลาดในการสร้างใหม่ของกฎหมายการบีบอัดเป็นฟังก์ชั่นการสูญเสียแทนที่จะเป็น MSE (ดู #14)

ผู้เขียน

Seungwon Park ที่ Mindslab ([email protected], [email protected])

ใบอนุญาต

ใบอนุญาต Apache 2.0

ที่เก็บนี้มีรหัสที่ดัดแปลง/คัดลอกมาจากสิ่งต่อไปนี้:

utils/adabound.py จาก https://github.com/luolc/adabound (Apache License 2.0)
utils/audio.py จาก https://github.com/keithito/tacotron (ใบอนุญาต MIT)
utils/hparams.py จาก https://github.com/harryvolek/pytorch_speaker_verification (ไม่ได้ระบุใบอนุญาต)
utils/normalize-resample.sh จาก https://unix.stackexchange.com/a/216475

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท หลาม
เวลาอัปเดต 2025-07-14
ขนาด 1.15MB
มาจาก Github

แอปที่เกี่ยวข้อง

ToDo Co

2025-03-22
Python Portfolio

2024-11-10
datamule python

2024-11-08
เครื่องมือแผนภูมิข้อมูลโอเพ่นซอร์ส Redash v24.10.0

2024-11-27
แพลตฟอร์มการแสดงภาพข้อมูล smartchart เวอร์ชัน 6.9

2024-11-27
เครื่องมือทดสอบโหลดตั๊กแตน v2.32.0

2024-11-27

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ToDo Co

หลาม

1.0.0
Python Portfolio

หลาม
datamule python

หลาม
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด