ดาวน์โหลด WavThruVec_pytorch - WavThruVec_pytorch ซอร์สโค้ดดาวน์โหลดดาวน์โหลด

WavThruVec_pytorch

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

wavthruvec pytorch

การดำเนินการอย่างไม่เป็นทางการของ wavthruvec ตาม pytorch

บทความต้นฉบับคือ wavthruvec: การแสดงการพูดแฝงเป็นคุณสมบัติกลางสำหรับการสังเคราะห์การพูดของระบบประสาท

สถาปัตยกรรม

โมเดล Text2Vec ส่วนใหญ่เป็นไปตามสถาปัตยกรรม FastSpeech (XCMYZ) ฉันแก้ไขโมเดลส่วนใหญ่ขึ้นอยู่กับ Rad-TTS (Nvidia's) และฉันเพิ่ม ecapa_tdnn เป็นตัวเข้ารหัสลำโพงสำหรับเงื่อนไขหลายลำโพง

สำหรับรายละเอียดอื่น ๆ ที่ไม่ได้กล่าวถึงในกระดาษฉันยังทำตาม rad-tts

VEC2WAV ส่วนใหญ่ขึ้นอยู่กับ HIFI-GAN และแนะนำการทำให้เป็นมาตรฐานแบบมีเงื่อนไขเพื่อปรับสภาพเครือข่ายในการฝังลำโพง ลำดับอัตราการเพิ่มขึ้นคือ (5,4,4,2,2) ดังนั้นปัจจัยการสุ่มตัวอย่างคือ $ Times 320 $ (กระดาษต้นฉบับคือ $ Times 640 $ ) กล่าวอีกนัยหนึ่ง WAVs ที่สร้างขึ้นมีอัตราตัวอย่าง 16kHz (32kHz ในกระดาษต้นฉบับ),

การฝึกอบรม text2vec

การอนุมาน text2vec

vec2wav

ป้อนข้อมูล

สำหรับข้อความ:

อย่าใช้วิธีการทำให้เป็นปกติของข้อความตามกฎหรือวิธีการออกเสียง แต่ฟีดอักขระดิบและเปลี่ยนเป็นการฝังตัวข้อความเป็นอินพุต

สำหรับเสียง:

ใช้เอาต์พุตของ WAV2VEC 2.0 เป็นคุณสมบัติของ WAV (แทนที่จะเป็น MEL spectrogram) โดยมี dtype ของ 'float32' และรูปร่างของ (batch_size, n_frame, n_channel)

หมายเหตุ: N_Channel = 768 หรือ 1024 ขึ้นอยู่กับรุ่นที่คุณใช้ WAV2VEC 2.0 เวอร์ชันใดเนื่องจาก TencentGamemate ให้ Fairseq-Version (768) และ HuggingFace-Version (1024) ทั้งสองรุ่นนี้มีรูปร่างเอาต์พุตที่แตกต่างกัน

wav2vec 2.0 pretrained

จากพื้นที่เก็บข้อมูลนี้ WAV2VEC2.0 (คำพูดภาษาจีน) และยังสามารถพบได้ที่ HuggingFace

attn_prior

หนึ่งในความแตกต่างที่ยิ่งใหญ่ที่สุดระหว่าง Wavthruvec และ Fastspeech คือโมดูลการจัดตำแหน่งแบบ monotonic (MAS) (อ้างอิงถึง alignment.py )

ใน Fastspeech อินพุตการฝึกอบรมรวมถึงการจัดตำแหน่งครูสำหรับเฟรม MEL และโทเค็นข้อความ โดยเฉพาะอย่างยิ่งมันเกี่ยวข้องกับการใช้ MFA เพื่อสร้าง duration ของเฟรม MEL สำหรับโทเค็นข้อความแต่ละรายการก่อนการฝึกอบรม

ในขณะที่อยู่ใน wavthruvec duration ที่สร้างขึ้นโดยใช้ MAS จาก RAD-TTS และถูกป้อนเข้าสู่ Lenghegulator (Duration-Predictor)

ตามการค้นหาการจัดตำแหน่งแบบ monotonic และการใช้งาน RAD-TTS เมื่อคุณฝึกอบรมโมเดลไฟล์แนวทางการจัดตำแหน่งจะถูกสร้างขึ้นภายใต้ './data/align_prior' ไดเรกทอรีด้วยรูปแบบชื่อไฟล์ของ {n_token}_{n_feat}_prior.pth

สิ่งแวดล้อม

Cuda 10.1
Python 3.9.7
Torch 1.8.1+Cu101
Torch-Optimizer 0.3.0
Torchaudio 0.8.1
Tensorboard 2.12.0
Librosa 0.8.0
numba 0.56.4
numpy 1.22.4
llvmlite 0.39.1

ชุดข้อมูลและเตรียมตัว

aishell3

prepay_data.py:

1. อ่านไฟล์ WAV และ WAV2VEC2 รุ่นที่ผ่านการฝึกฝนให้กลับมาสุ่มตัวอย่าง WAVS เป็น 16KHz และแปลงเป็นไฟล์. NPY ซึ่งมีคุณสมบัติ WAV2VEC 2.0 ที่สอดคล้องกัน
2. อ่านการถอดรหัส aishell3 (content.txt) และกรองหน่วยเสียงจีนและว่างเปล่า ใช้เส้นทางการถอดความและไฟล์เพื่อสร้างรายการรถไฟ (./ data/enc_train.txt)
3. สร้างคำศัพท์ซึ่งจะใช้ในการแปลงอักขระเป็นตัวแปรไฟฉาย

ตัวอย่างเช่น prepay_data.py ใช้ลำโพงเพียงไม่กี่ตัวและไฟล์ WAV สองสามไฟล์

การฝึกอบรม

wavthruvec contrains 2 ส่วนประกอบ: text2vec (encoder) และ vec2wav (ตัวถอดรหัส) และพวกเขาฝึกอบรมอย่างอิสระ

ดังนั้นฉันจึงวางไว้ในสอง DIR แยกกันและใช้การกำหนดค่าการฝึกอบรมที่แตกต่างกันสำหรับแต่ละคน

บอร์ดบอร์ด

เครื่องบันทึกเทนซอร์บอร์ดจะถูกเก็บไว้ในไดเรกทอรี run/{log_seed}/tb_logs สมมติว่า log_seed=1 คุณสามารถใช้คำสั่งนี้เพื่อให้บริการ tensorboard บน localhost ของคุณ

 tensorboard --logdir run/1/tb_logs

บันทึกจุดตรวจและกู้คืน

จุดตรวจสอบโมเดลจะถูกบันทึกไว้ในไดเรกทอรี run/{log_seed}/model_new

สมมติว่าคุณบันทึกจุดตรวจทุกครั้งที่ทำซ้ำ 10,000 และตอนนี้คุณมีจุดตรวจสอบ checkpoint_10000.pth.tar _10000.pth.tar หากคุณต้องการรีสตาร์ทการฝึกอบรมที่ step 10000 ให้ใช้คำสั่งนี้

 python ./text2vec/train.py --restore_step 10000

สิ่งที่ต้องทำ

การทดลองและการดำเนินการ
รายละเอียดเพิ่มเติมสำหรับการดำเนินการ

อ้างอิง

ที่เก็บ

FastSpeech (XCMYZ's)
WAV2VEC2.0 (คำพูดภาษาจีน)
Rad-TTS (Nvidia's)
Gan-TTS (Yanggeng1995's)
hifi-gan
Fastpitch (Dan-Wells ')
ecapa_tdnn (Tao Ruijie's)
ecapa_tdnn (Lawlict's)
Glow-TTS (Jaywalnut310's)

กระดาษ

จารึก
FastSpeech2
hifi-gan
wav2vec
rad-tts
การค้นหาการจัดตำแหน่งแบบโมโนโทนิก

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-09-14
ขนาด 892.77KB
มาจาก Github

แอปที่เกี่ยวข้อง

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
pytorch image models

2024-11-03
nextcloud_share_url_downloader

2024-11-01
เครื่องมือวิเคราะห์ข้อมูล Lihua เวอร์ชันฟรี 3.0_search_navigation_collection_public comment_ranking_api

2022-06-28

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ML stack

โค้ดแหล่งที่มา AI

1.0.0
awesome free chatgpt

โค้ดแหล่งที่มา AI

1.0.0
pywin_contextmenu

โค้ดแหล่งที่มา AI

Version update
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด