ดาวน์โหลด wavenet_vocoder - ดาวน์โหลดซอร์สโค้ด wavenet

wavenet_vocoder

หลาม

v0.1.1 release

ดาวน์โหลด

Wavenet Vocoder

หมายเหตุ : นี่คือเวอร์ชันการพัฒนา หากคุณต้องการเวอร์ชันที่เสถียรโปรดชำระเงิน V0.1.1

เป้าหมายของพื้นที่เก็บข้อมูลคือการดำเนินการตามคำสั่ง Wavenet ซึ่งสามารถสร้างตัวอย่างการพูดดิบคุณภาพสูงที่มีเงื่อนไขเกี่ยวกับคุณสมบัติทางภาษาศาสตร์หรืออะคูสติก

ตัวอย่างเสียงมีอยู่ที่ https://r9y9.github.io/wavenet_vocoder/

ข่าว

2019/10/31: พื้นที่เก็บข้อมูลได้รับการปรับให้เข้ากับ ESPNET มีตัวอย่างภาษาอังกฤษจีนและญี่ปุ่น ดู https://github.com/espnet/espnet และ https://github.com/espnet/espnet#tts-results สำหรับรายละเอียด

การสาธิต TTS ออนไลน์

สมุดบันทึกที่ควรจะดำเนินการใน https://colab.research.google.com พร้อมใช้งาน:

TACOTRON2: การสาธิตการพูดแบบข้อความเป็นคำพูดที่ใช้ Wavenet

ไฮไลท์

มุ่งเน้นไปที่การปรับอากาศในระดับท้องถิ่นและระดับโลกของ Wavenet ซึ่งเป็นสิ่งจำเป็นสำหรับผู้ร้อง
การสร้างแบบจำลองเสียงดิบ 16 บิตโดยการแจกแจงส่วนผสม: ส่วนผสมของโลจิสติกส์ (MOL), ส่วนผสมของเกาส์และการแจกแจงแบบเกาส์เดี่ยว
ตัวอย่างเสียงและรุ่นที่ผ่านการฝึกอบรมมาก่อน
การอนุมานอย่างรวดเร็วโดยการแคชรัฐระดับกลางใน convolutions คล้ายกับ arxiv: 1611.09482
การรวมเข้ากับ ESPNET (https://github.com/espnet/espnet)

รุ่นที่ผ่านการฝึกอบรมมาก่อน

หมายเหตุ : นี่ไม่ใช่โมเดลข้อความเป็นคำพูด (TTS) ด้วยโมเดลที่ผ่านการฝึกอบรมมาก่อนที่นี่คุณสามารถสังเคราะห์รูปคลื่นได้เนื่องจาก MEL spectrogram ไม่ใช่ข้อความดิบ คุณจะต้องใช้แบบจำลองการทำนาย Mel-Spectrogram (เช่น Tacotron2) เพื่อใช้แบบจำลองที่ผ่านการฝึกอบรมมาก่อนสำหรับ TTS

หมายเหตุ : สำหรับโมเดลที่ผ่านการฝึกอบรมสำหรับ LJSpeech โมเดลได้รับการปรับแต่งหลายครั้งและได้รับการฝึกฝนมานานกว่า 1,000K ขั้นตอนทั้งหมด โปรดดูปัญหา ( #1, #75, #45) เพื่อทราบว่ารูปแบบได้รับการฝึกฝนอย่างไร

URL รุ่น	ข้อมูล	Hyper Params URL	Git Commit	ขั้นตอน
การเชื่อมโยง	ljspeech	การเชื่อมโยง	2092A64	1,000k ~ ขั้นตอน
การเชื่อมโยง	CMU Arctic	การเชื่อมโยง	B1A1076	ขั้นตอน 740K

หากต้องการใช้โมเดลที่ผ่านการฝึกอบรมมาก่อนให้ชำระเงินก่อนที่ GIT เฉพาะที่ระบุไว้ข้างต้น เช่น,

 git checkout ${commit_hash}

จากนั้นติดตามส่วน "สังเคราะห์จากจุดตรวจ" ในส่วนอ่าน โปรดทราบว่าการสังเคราะห์รุ่นเก่า py อาจไม่ยอมรับ --preset=<json> พารามิเตอร์และคุณอาจต้องเปลี่ยน hparams.py ตามไฟล์ที่ตั้งไว้ล่วงหน้า (JSON)

คุณสามารถลองตัวอย่างเช่น:

 # Assuming you have downloaded LJSpeech-1.1 at ~/data/LJSpeech-1.1
# pretrained model (20180510_mixture_lj_checkpoint_step000320000_ema.pth)
# hparams (20180510_mixture_lj_checkpoint_step000320000_ema.json)
git checkout 2092a64
python preprocess.py ljspeech ~/data/LJSpeech-1.1 ./data/ljspeech 
  --preset=20180510_mixture_lj_checkpoint_step000320000_ema.json
python synthesis.py --preset=20180510_mixture_lj_checkpoint_step000320000_ema.json 
  --conditional=./data/ljspeech/ljspeech-mel-00001.npy 
  20180510_mixture_lj_checkpoint_step000320000_ema.pth 
  generated

คุณสามารถค้นหาไฟล์ WAV ที่สร้างขึ้นในไดเรกทอรี generated สงสัยว่ามันทำงานอย่างไร? จากนั้นดูรหัส :)

โครงสร้างที่เก็บ

ที่เก็บประกอบด้วย 1) Pytorch Library, 2) เครื่องมือบรรทัดคำสั่งและ 3) สูตรสไตล์ ESPNET อันแรกคือห้องสมุด Pytorch ที่ให้ฟังก์ชั่น Wavanet อันที่สองคือชุดเครื่องมือในการเรียกใช้การฝึกอบรม/การอนุมาน Wavenet การประมวลผลข้อมูล ฯลฯ อันสุดท้ายคือสูตรที่ทำซ้ำได้รวมไลบรารี Wavenet และเครื่องมือยูทิลิตี้ โปรดดูพวกเขาขึ้นอยู่กับจุดประสงค์ของคุณ หากคุณต้องการสร้าง wavenet ของคุณในชุดข้อมูลของคุณ (ฉันเดาว่านี่เป็นกรณีที่น่าจะเป็นไปได้มากที่สุด) สูตรเป็นวิธีสำหรับคุณ

ความต้องการ

Python 3
cuda> = 8.0
pytorch> = v0.4.0

การติดตั้ง

 git clone https://github.com/r9y9/wavenet_vocoder && cd wavenet_vocoder
pip install -e .

หากคุณต้องการส่วนห้องสมุดเท่านั้นคุณสามารถติดตั้งได้จาก PYPI:

 pip install wavenet_vocoder

เริ่มต้น

สูตรสไตล์ Kaldi

ที่เก็บจัดเตรียมสูตรสไตล์ Kaldi เพื่อทำการทดลองที่ทำซ้ำได้และจัดการได้ง่าย สูตรที่มีอยู่มีดังนี้:

mulaw256 : Wavenet ที่ใช้การกระจายเอาต์พุตหมวดหมู่ อินพุตคือรูปคลื่นปริมาณ Mulaw 8 บิต
mol : ส่วนผสมของโลจิสติกส์ (โมล) Wavenet อินพุตเป็นเสียงดิบ 16 บิต
gaussian : Wavenet เดี่ยว-เกาส์ (อาจารย์ AKA Wavenet แห่งคลาริเน็ต) อินพุตเป็นเสียงดิบ 16 บิต

สูตรทั้งหมด run.sh ซึ่งระบุขั้นตอนทั้งหมดเพื่อดำเนินการฝึกอบรม/อนุมาน Wavenet รวมถึงการประมวลผลข้อมูลล่วงหน้า โปรดดู Run.sh ในไดเรกทอรี EGS สำหรับรายละเอียด

ข้อสังเกต : การปรับอากาศทั่วโลกสำหรับ Wavenet หลายลำโพงไม่ได้รับการสนับสนุนในสูตรข้างต้น (ไม่ควรใช้งานได้ยาก) โปรดตรวจสอบ v0.1.12 สำหรับคุณสมบัตินี้หรือหากคุณ ต้องการ คุณสมบัตินี้โปรดยกประเด็นปัญหา

ใช้สูตรสำหรับชุดข้อมูลของคุณเอง

สูตรอาหารได้รับการออกแบบให้เป็นทั่วไปเพื่อให้สามารถใช้สำหรับชุดข้อมูลใด ๆ ในการใช้สูตรอาหารกับชุดข้อมูลของคุณเองคุณจะต้องใส่ไฟล์ WAV ทั้งหมด ในไดเรกทอรีแบบแบนเดียว เช่น,

 > tree -L 1 ~/data/LJSpeech-1.1/wavs/ | head
/Users/ryuichi/data/LJSpeech-1.1/wavs/
├── LJ001-0001.wav
├── LJ001-0002.wav
├── LJ001-0003.wav
├── LJ001-0004.wav
├── LJ001-0005.wav
├── LJ001-0006.wav
├── LJ001-0007.wav
├── LJ001-0008.wav
├── LJ001-0009.wav

แค่ไหน! ขั้นตอนสุดท้ายคือการแก้ไข db_root ใน run.sh หรือให้ db_root เป็นการโต้เถียงบรรทัดคำสั่งสำหรับ run.sh

 ./run.sh --stage 0 --stop-stage 0 --db-root ~/data/LJSpeech-1.1/wavs/

ทีละขั้นตอน

โดยทั่วไปสูตรประกอบด้วยหลายขั้นตอน ขอแนะนำอย่างยิ่งให้เรียกใช้สูตรทีละขั้นตอนเพื่อทำความเข้าใจวิธีการทำงานเป็นครั้งแรก หากต้องการทำเช่นนั้นให้ระบุ stage และ stop_stage ดังนี้:

 ./run.sh --stage 0 --stop-stage 0

 ./run.sh --stage 1 --stop-stage 1

 ./run.sh --stage 2 --stop-stage 2

ในสถานการณ์ทั่วไปคุณจะต้องระบุอุปกรณ์ CUDA ที่อธิบายอย่างชัดเจนสำหรับขั้นตอนการฝึกอบรม

 CUDA_VISIBLE_DEVICES="0,1" ./run.sh --stage 2 --stop-stage 2

เอกสารสำหรับเครื่องมือบรรทัดคำสั่ง

เครื่องมือบรรทัดคำสั่งเป็น writtern ด้วย docopt ดูเอกสารแต่ละรายการสำหรับการใช้งานพื้นฐาน

tojson.py

Dump Hyperparameters ไปยังไฟล์ JSON

การใช้งาน:

 python tojson.py --hparams="parameters you want to override" <output_json_path>

preprocess.py

การใช้งาน:

 python preprocess.py wavallin ${dataset_path} ${out_dir} --preset=<json>

Train.py

หมายเหตุ: สำหรับการฝึกอบรมหลาย GPU คุณจะต้องตรวจสอบให้แน่ใจว่า batch_size % num_gpu == 0

การใช้งาน:

 python train.py --dump-root=${dump-root} --preset=<json>
  --hparams="parameters you want to override"

ประเมิน. py

ได้รับ Directoy ที่มีคุณสมบัติการปรับสภาพในท้องถิ่นสังเคราะห์รูปคลื่นสำหรับพวกเขา

การใช้งาน:

 python evaluate.py ${dump_root} ${checkpoint} ${output_dir} --dump-root="data location"
    --preset=<json> --hparams="parameters you want to override"

ตัวเลือก:

--num-utterances=<N> : จำนวนคำพูดที่จะสร้าง หากไม่ได้ระบุให้สร้างความหมายทั้งหมด สิ่งนี้มีประโยชน์สำหรับการดีบัก

synthesis.py

ข้อสังเกต : นี่อาจไม่ได้ผลตอนนี้ โปรดใช้ evaluate.py แทน

การสังเคราะห์รูปคลื่นให้คุณสมบัติการปรับสภาพ

การใช้งาน:

 python synthesis.py ${checkpoint_path} ${output_dir} --preset=<json> --hparams="parameters you want to override"

ตัวเลือกที่สำคัญ:

--conditional=<path> : (จำเป็นสำหรับ wavenet แบบมีเงื่อนไข) เส้นทางของคุณสมบัติตามเงื่อนไขในท้องถิ่น (.npy) หากระบุสิ่งนี้จำนวนขั้นตอนเวลาในการสร้างจะถูกกำหนดโดยขนาดของคุณสมบัติเงื่อนไข

สถานการณ์การฝึกอบรม

การฝึกอบรม wavenet แบบไม่ติดตั้งเงื่อนไข

ข้อสังเกต : นี่อาจไม่ได้ผลตอนนี้ โปรดตรวจสอบ v0.1.1 สำหรับเวอร์ชันที่ใช้งานได้

 python train.py --dump-root=./data/cmu_arctic/
    --hparams="cin_channels=-1,gin_channels=-1"

คุณต้องปิดใช้งานการปรับสภาพทั่วโลกและท้องถิ่นโดยการตั้ง gin_channels และ cin_channels เป็นค่าลบ

การฝึกอบรม wavenet ปรับอากาศบน mel-spectrogram

 python train.py --dump-root=./data/cmu_arctic/ --speaker-id=0 
    --hparams="cin_channels=80,gin_channels=-1"

การฝึกอบรม wavenet ปรับอากาศบน mel-spectrogram และลำโพงฝัง

ข้อสังเกต : นี่อาจไม่ได้ผลตอนนี้ โปรดตรวจสอบ v0.1.1 สำหรับเวอร์ชันที่ใช้งานได้

 python train.py --dump-root=./data/cmu_arctic/ 
    --hparams="cin_channels=80,gin_channels=16,n_speakers=7"

ผิด

ตรวจสอบด้วย tensorboard

บันทึกจะถูกทิ้งใน ./log directory โดยค่าเริ่มต้น คุณสามารถตรวจสอบบันทึกโดย Tensorboard:

 tensorboard --logdir=log

รายการเอกสารที่ใช้ที่เก็บข้อมูล

การเปรียบเทียบนักร้องประสาทล่าสุดสำหรับการสร้างสัญญาณเสียงพูดการสร้างใหม่
Waveglow: เครือข่ายกำเนิดที่ใช้การไหลสำหรับการสังเคราะห์คำพูด https://arxiv.org/abs/1811.00002
wavecyclegan2: เวลาโพสต์ตัวกรองระบบประสาท-โดเมนสำหรับการสร้างคลื่นเสียงคำพูด https://arxiv.org/abs/1904.02892
การสังเคราะห์พารามิเตอร์กับนักร้องประสาท https://arxiv.org/abs/1906.06762
การเป็นตัวแทนผสมสำหรับการสังเคราะห์ tts https://arxiv.org/abs/1811.07240
สถาปัตยกรรมระบบประสาทแบบครบวงจรสำหรับงานเสียงที่เป็นเครื่องมือ https://arxiv.org/abs/1903.00142
ESPNET-TTS: Unified, Reproducible และ Integratable Open Source End-to-end Text-to-Speech Toolkit: https://arxiv.org/abs/1910.10909

ขอบคุณมาก!! หากคุณพบใหม่โปรดส่ง PR

ผู้สนับสนุน

https://github.com/echelon

การอ้างอิง

Aaron Van Den Oord, Sander Dieleman, Heiga Zen, et al, "Wavenet: แบบจำลองการกำเนิดสำหรับเสียงดิบ", arxiv: 1609.03499, ก.ย. 2016
Aaron van den Oord, Yazhe Li, Igor Babuschkin, et al, "คู่ขนาน Wavenet: การสังเคราะห์คำพูดที่มีความเที่ยงตรงสูงเร็ว", Arxiv: 1711.10433, พ.ย. 2017
Tamamori, Akira, et al. "นักร้อง Wavenet ขึ้นอยู่กับลำโพง" การดำเนินการของ Interspeech 2017.
Jonathan Shen, Ruoming Pang, Ron J. Weiss, et al, "การสังเคราะห์ TTS ธรรมชาติโดยการปรับสภาพ wavenet ในการทำนาย Mel Spectrogram", arxiv: 1712.05884, ธ.ค. 2017
Wei Ping, Kainan Peng, Andrew Gibiansky, et al, "Deep Voice 3: 2000-Speaker Neural Text-to-Speech", Arxiv: 1710.07654, ตุลาคม 2017
Tom Le Paine, Pooya Khorrami, Shiyu Chang, et al, "อัลกอริทึมการสร้าง Wavenet Fast Wavenet", Arxiv: 1611.09482, พ.ย. 2016
Ye Jia, Yu Zhang, Ron J. Weiss, Quan Wang, Jonathan Shen, Fei Ren, Zhifeng Chen, Patrick Nguyen, Ruoming Pang, Ignacio Lopez Moreno, Yonghui Wu, et al, "ถ่ายโอนการเรียนรู้ 2019

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน v0.1.1 release
ประเภท หลาม
เวลาอัปเดต 2025-07-11
ขนาด 101.28KB
มาจาก Github

แอปที่เกี่ยวข้อง

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
หมา_สุนัขจิ้งจอก_กระต่าย

2022-08-01
เครื่องมือวิเคราะห์ข้อมูล Lihua เวอร์ชันฟรี 3.0_search_navigation_collection_public comment_ranking_api

2022-06-28

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ToDo Co

หลาม

1.0.0
Python Portfolio

หลาม
datamule python

หลาม
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด