ดาวน์โหลด reformer tts - reformer tts Source Source Download

reformer tts

โค้ดแหล่งที่มา AI

Initial release - project submission

ดาวน์โหลด

Reformer-TTS

การปรับตัวของนักปฏิรูป: หม้อแปลงที่มีประสิทธิภาพสำหรับงานข้อความเป็นคำพูด

โครงการนี้มี:

รหัสประมวลผลล่วงหน้าสำหรับการสร้างชุดข้อมูลคำพูดของทรัมป์ตามการถอดเสียงจาก Rev.com
การดำเนินการของ TTS Reformer: การปรับตัวของนักปฏิรูป: หม้อแปลงที่มีประสิทธิภาพสำหรับงานข้อความเป็นคำพูดตามการสังเคราะห์การพูดด้วยระบบประสาทด้วยเครือข่ายหม้อแปลงไฟฟ้า
การดำเนินการของ Squeezewave: นักร้องที่มีน้ำหนักเบามากสำหรับการสังเคราะห์คำพูดบนอุปกรณ์ใน Pytorch สมัยใหม่โดยไม่ต้องพึ่งพา Tacotron2, Wavenet หรือ Waveglow
Pytorch Lightning Wrappers เพื่อการฝึกอบรมทั้งสองรุ่นด้วยการจัดการการกำหนดค่าที่ใช้งานง่าย
CLI สำหรับการฝึกอบรมการอนุมานและการประมวลผลข้อมูลล่วงหน้า

ขอบเขตโครงการและสถานะปัจจุบัน

เรามีวัตถุประสงค์เพื่อสร้างโมเดลข้อความที่ล้ำสมัยอย่างมีประสิทธิภาพมากขึ้นโดยการแทนที่สถาปัตยกรรมหม้อแปลงด้วยการปรับให้เหมาะสมที่เสนอในกระดาษปฏิรูปล่าสุด เราจะใช้มันเพื่อสร้างความลึกที่น่าเชื่อถือของโดนัลด์ทรัมป์ตามชุดข้อมูลที่กำหนดเองของสุนทรพจน์ของเขาสร้างขึ้นโดยเฉพาะเพื่อจุดประสงค์นี้

น่าเสียดายที่เราไม่สามารถสร้างผลลัพธ์ที่ตรงกับกระดาษจากกระดาษ Transformer TTS หลังจากทดลองใช้ชุดค่าผสมไฮเปอร์พารามิเตอร์มากกว่า 100 ชุดในช่วง 2 เดือน เราเชื่อว่าขนาดของแบบจำลองเป็นปัจจัยสำคัญที่นี่และฝึกอบรมหม้อแปลงสำหรับ TTS ที่ต้องการอย่างแท้จริงเพื่อลดการ overfitting เพื่อให้กระบวนการฝึกอบรมที่ยาวนานและมั่นคง (~ 1 สัปดาห์ของการฝึกอบรมเกี่ยวกับ RTX 2080TI)

นอกจากนี้การเข้าถึงการใช้งานดั้งเดิมของ Transformer TTS จะช่วยได้อย่างมาก

ในขณะที่นักปฏิรูปไม่ตรงกับความคาดหวังของเราการใช้ Squeezewave ตรงกับประสิทธิภาพของต้นฉบับโดยไม่ต้องสนับสนุน FP16

นอกจากนี้เรายังรวมถึง CLI สำหรับการฝึกอบรมและการอนุมาน (ดูส่วน การใช้งาน ) และข้อมูลทั้งหมดที่จำเป็นสำหรับการทำซ้ำการทดลอง (ดูส่วน การพัฒนา )

โครงการอยู่ภายใต้การปรับเปลี่ยนที่สำคัญรุ่นนี้ถูกทิ้งไว้ที่นี่เพื่อให้ความเป็นกันเองกับ expeirments ก่อนหน้าของเราและจะถูกย้ายในอนาคตอันใกล้

เอกสารเพิ่มเติม

การนำเสนอขั้นสุดท้ายและสไลด์
วารสารโครงการ
เอกสารวิจัย

ใช้โครงการ

โครงการนี้เป็นแพ็คเกจ Python ปกติและสามารถติดตั้งได้โดยใช้ pip ตราบใดที่คุณมี Python 3.8 ขึ้นไป

ไปที่หน้าเผยแพร่เพื่อค้นหาคำแนะนำการติดตั้งสำหรับรุ่นล่าสุด

หลังจากการติดตั้งคุณสามารถเห็นคำสั่งที่มีอยู่โดยรัน:

python -m reformer_tts.cli --help

คำสั่งทั้งหมดดำเนินการโดยใช้ CLI ตัวอย่างเช่น:

python -m reformer_tts.cli train-vocoder

พารามิเตอร์ส่วนใหญ่ (โดยเฉพาะอย่างยิ่งการฝึกอบรมพารามิเตอร์ทั้งหมด) จะถูกระบุผ่านอาร์กิวเมนต์ --config ไปยัง cli (ซึ่งไปก่อนคำสั่งที่คุณต้องการเรียกใช้) เช่น:

python -m reformer_tts.cli -c /path/to/your/config.yml train-vocoder

ค่าเริ่มต้นสามารถพบได้ใน reformer_tts.config.Config (และฟิลด์)

การตั้งค่าการพัฒนา

1. ติดตั้งการพึ่งพา

ใช้ conda

ขอบคุณชุมชน Conda-Forge เราสามารถติดตั้งแพ็คเกจทั้งหมด (รวมถึงไบนารีที่จำเป็นเช่น ffmpeg ) โดยใช้คำสั่งเดียว

conda env create -f environment.yml

ใช้ผู้จัดการแพ็คเกจอื่น ๆ

ตรวจสอบสภาพแวดล้อมของคุณและตรวจสอบให้แน่ใจว่าคุณมี Python>=3.8 :

which python
python --version

ติดตั้งการพึ่งพา Python (ยังติดตั้งแพ็คเกจของเราในโหมดแก้ไขได้):

pip install -r requirements.txt

ตรวจสอบให้แน่ใจว่าคุณมี ffmpeg>=3.4,<4.0 ติดตั้ง (คำแนะนำการติดตั้ง)
สำหรับการฝึกอบรมให้แน่ใจว่าคุณติดตั้งไดรเวอร์ CUDA และ GPU (สำหรับรายละเอียดดูคำแนะนำในเว็บไซต์ Pytorch)

2. กำหนดค่าเครื่องมือ

เพื่อให้ DVC มีการเข้าถึงการเขียนไปยังรีโมตกำหนดค่าบัญชี GCP ของคุณ (โดยใช้ข้อมูลรับรองจากไฟล์ JSON ที่สร้างขึ้น):

 export GOOGLE_APPLICATION_CREDENTIALS=/path/to/your/service-account-credentials.json

หมายเหตุ: หากคุณต้องการอ่าน acces (สำหรับการทำซ้ำ) คุณไม่จำเป็นต้องดำเนินการขั้นตอนที่ 1

รับข้อมูลทั้งหมด - ขั้นตอนนี้ต้องทำซ้ำ:
- ทุกครั้งที่คุณเริ่มทำงานหลังจากหยุดพัก
- หลังจากดึง git ทุกครั้ง
- หลังจากตรวจสอบสาขา Git อื่น

dvc pull

3. ตรวจสอบว่าการตั้งค่าถูกต้องหรือไม่

ในการทำเช่นนี้คุณสามารถเรียกใช้การทดสอบโครงการ:

python -m pytest --pyargs reformer_tts

การทดสอบทั้งหมดควรทำงานกับ CPU และ GPU และอาจใช้เวลาถึงหนึ่งนาทีจึงจะเสร็จสมบูรณ์

อย่าลืมผ่าน --pyargs reformer_tts ถึง pytest มิฉะนั้นจะค้นหาไดเรกทอรีข้อมูลสำหรับการทดสอบ

รายละเอียดการตั้งค่า

ใช้แพ็คเกจผู้จัดการอะไรก็ได้ที่คุณต้องการ
ใช้ Python>=3.8
การพึ่งพา Python ทั้งหมดจะอยู่ใน requirements.txt และใน environment.yml
จุดเริ่มต้นหนึ่งจุดสำหรับงาน: reformer_tts/cli.py , เรียกใช้ python reformer_tts/cli.py --help สำหรับการอ้างอิงโดยละเอียด

การกำหนดค่า

การกำหนดค่าถูกจัดระเบียบในโครงสร้าง Dataclass:

แต่ละโครงการ submodule มีไฟล์การกำหนดค่าของตัวเองเรียกว่า config.py โดยที่พารามิเตอร์และค่า เริ่มต้น ถูกกำหนด - ตัวอย่างเช่นพารามิเตอร์การกำหนดค่าชุดข้อมูลจะถูกระบุใน reformer_tts.dataset.config
คลาส reformer_tts.config.Config มีการตั้งค่าการกำหนดค่าของ submodules ทั้งหมด
ค่า จริง ของพารามิเตอร์การกำหนดค่าจะถูกโหลดจากไฟล์การกำหนดค่าในรูปแบบ YAML แนวทางปฏิบัติที่ดีที่สุดคือการแทนที่ค่าเริ่มต้นในไฟล์ YAML

ด้วยวิธีนี้ค่าเริ่มต้นจะถูกตั้งค่าใกล้กับสถานที่ที่พวกเขาใช้ค่าการกำหนดค่าใด ๆ สามารถแทนที่ได้ทุกที่ที่คุณต้องการ

เพื่อเปลี่ยนการกำหนดค่ารันไทม์

สร้างการกำหนดค่าโดยอัตโนมัติด้วยค่าเริ่มต้นโดยใช้คำสั่ง python reformer_tts/cli.py save-config -o config/custom.yml หรือคัดลอกหนึ่งในไฟล์การกำหนดค่าที่มีอยู่ใน config/ directory ด้วยตนเอง
ลบค่าเริ่มต้นที่คุณไม่ต้องการเปลี่ยนจากไฟล์กำหนดค่าที่สร้างขึ้น
เปลี่ยนค่าที่คุณต้องการเปลี่ยนในไฟล์กำหนดค่าที่สร้างขึ้น
ระบุการกำหนดค่าของคุณเมื่อเรียกใช้สคริปต์ CLI โดยใช้ตัวเลือก -c , เช่น: python reformer_tts/cli.py -c config/custom.yml [COMMAND]

เพื่อเพิ่มการกำหนดค่าสำหรับโมดูลใหม่

สร้าง config.py ในโมดูลของคุณ
กำหนดข้อมูลด้วยพารามิเตอร์การกำหนดค่าที่จำเป็นทั้งหมดในไฟล์ใหม่:
- ตรวจสอบให้แน่ใจว่าคลาสของคุณไม่ได้กำหนดค่าพารามิเตอร์อีกครั้งสำหรับไฟล์กำหนดค่าอื่น ๆ (เช่นเราระบุจำนวนแชนเนล Spectrogram เพียงครั้งเดียว - ในสถานที่เดียวกันสำหรับทั้ง dataset และโมดูล squeezewave )
- ตรวจสอบให้แน่ใจว่าคลาสของคุณมีค่าเริ่มต้นสำหรับพารามิเตอร์ทั้งหมด
เพิ่มฟิลด์สำหรับข้อมูลของคุณในคลาส reformer_tts.config main config

การพึ่งพาข้อมูล

เราใช้ DVC สำหรับการกำหนดท่อส่งข้อมูล รีโมตตั้งค่าบนที่เก็บข้อมูล Google Cloud สำหรับรายละเอียดการเรียกใช้ dvc config list

การตั้งค่าสำหรับการรันงานบนคลัสเตอร์เอนโทรปี

โหนดที่เตรียมไว้สำหรับการวิ่ง:

asusgpu3
asusgpu4
asusgpu1
อาร์โนลด์
ซิลเวสเตอร์

วิ่ง Trainig บนโหนดกับ Homedir

โคลน repo ไปที่บ้านของคุณ
ตรวจสอบให้แน่ใจว่าเส้นทางชุดข้อมูลได้รับการกำหนดค่าใน /scidatalg
คำสั่งตั้งค่าเพื่อเรียกไฟล์จาก Homedir ของคุณ
กระทำการเปลี่ยนแปลงของคุณ
เรียกใช้สคริปต์ sbatch

รันการฝึกอบรมบนโหนดเฉพาะโดยไม่มี Homedir

ก่อนรัน:

เลือกโหนดจากที่เตรียมไว้แล้วหรือเตรียมใหม่โดยใช้คำแนะนำด้านล่าง
คัดลอกที่เก็บไปยังบ้านของคุณ
ตรวจสอบให้แน่ใจว่าโทเค็น Neptune API ตั้งอยู่ในสภาพแวดล้อมของคุณ

เพื่อเรียกใช้การฝึกอบรม:

เตรียมการกำหนดค่าการฝึกอบรมและผลักมันไปยังที่เก็บระยะไกล
เข้าสู่ระบบไปยังโหนดที่เลือกโดยใช้เซสชันแบบโต้ตอบ srun --qos=gsn --partition=common --nodelist=<name_of_chosen_node> --pty /bin/bash
goto /scidatalg/reformer-tts/reformer-tts/ ตรวจสอบให้แน่ใจว่ามีการดึงพื้นที่เก็บข้อมูลและในสาขาที่เหมาะสม
ลงชื่อเข้าสู่โหนดเข้าสู่ระบบ
คัดลอกและแก้ไข jobs/train_entropy.sbatch - เติมชื่อโหนดและคำสั่งการฝึกอบรม
เรียกใช้ sbatch your/job/script/location.sbatch

Pro Tip watch -n 1 squeue -u your_username เพื่อดูว่างานของคุณกำลังทำงานอยู่แล้ว Pro Tip2 คุณสามารถดูการอัปเดตไปยังบันทึกโดยเรียกใช้ tail -f file.log หรือ less --follow-name +F file.log

ดึงจาก DVC

ในการดึงจาก DVC ใช้ jobs/entropy_dvc_pull.sbatch

คัดลอกไฟล์นี้
เติมชื่อโหนด
ปรับคำสั่ง DVC
รันงานโดยใช้ sbatch

การเตรียมโหนดใหม่

เนื่องจากไดเรกทอรี /scidatasm ไม่ได้ซิงค์ในขณะที่เราต้องการฝึกอบรมเราต้องตั้งค่าการฝึกอบรมในแต่ละโหนดแยกกันด้วยมือ ในการตั้งค่า env บนโหนดใหม่ติดตามการเกิดนี้:

หมายเหตุ : เฉพาะโหนดที่มี /scidatalg ได้รับการสนับสนุนโดยสคริปต์นี้ โหนดเหล่านี้คือ: ASUSGPU4, ASUSGPU3, ASUSGPU2, ASUSGPU1, Arnold, Sylvester

เข้าสู่ระบบโดยใช้เซสชันแบบโต้ตอบ srun --qos=gsn --partition=common --nodelist=<name_of_chosen_node> --pty /bin/bash
คัดลอกข้อมูลรับรอง Google API ไปที่ ${HOME}/gcp-cred.json (ใช้ตัวแก้ไขที่คุณชื่นชอบ)
คัดลอกเนื้อหาของ scripts/setup_entropy_node.sh ไปยังไฟล์ใหม่ใน Home DIR (ใช้ตัวแก้ไขอีกครั้ง)
เรียกใช้สคริปต์ที่คัดลอก

ขยาย

ข้อมูลเพิ่มเติม