ดาวน์โหลด Stepwise_Monotonic_Multihead_Attention ดาวน์โหลด - Stepwise_Monotonic_Multihead_Attention ซอร์สโค้ดดาวน์โหลดดาวน์โหลด

Stepwise_Monotonic_Multihead_Attention

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

stepwise_monotonic_multihead_attention

การใช้ Pytorch ของความสนใจแบบหลายหัวแบบ monotonic (SMA) คล้ายกับการเพิ่มความรู้สึกโมโนโท

ตัวอย่างผลลัพธ์

คุณสามารถใช้ SMA เพื่อจับคู่ mel-spectrogram กับข้อความในความยาวของลำดับ ด้านล่างนี้เป็นผลลัพธ์บางอย่างที่แสดงประสิทธิภาพของ SMA รูปแรกคือการจัดตำแหน่งที่ไม่มี SMA ( hp.sma_tunable=False ) ที่ขั้นตอน 115K รูปที่สองคือรูปที่มี SMA tunning ( hp.sma_tunable=True ) ที่ขั้นตอน 125k

อย่างที่คุณเห็นฉันสามารถยืนยันได้ว่าการจัดตำแหน่งนั้นแข็งแกร่งกว่าความสนใจแบบหลายเฮดปกติหลังจากใช้การปรับแต่ง SMA

การใช้งาน

ก่อนอื่นกำหนด SMA สมมติว่าเรามีการเข้ารหัส 256 มิติและความสนใจ 4-multihead

 from sma import StepwiseMonotonicMultiheadAttention

ref_attention = StepwiseMonotonicMultiheadAttention ( 256 , 256 // 4 , 256 // 4 )

จากนั้นคุณสามารถใช้ความสนใจและได้รับการจัดตำแหน่งดังนี้ mel_len เป็นขนาดเฟรมของเสียงอ้างอิงและ seq_len คือความยาวของข้อความอินพุต (ซึ่งมักจะเป็นลำดับของหน่วยเสียง) fr_max เป็นค่าสูงสุดของอัตราการโฟกัสจากฟังก์ชั่น focused_head() ทั้ง text_mask และ attn_mask มี 1. สำหรับค่าที่จะถูกปิดบังและ 0. เพื่อให้ผู้อื่นถูกเก็บไว้

 """
enc_out --- [batch, seq_len, 256]
attn --- [batch, seq_len, mel_len] 
enc_text --- [batch, seq_len, 256]
enc_audio --- [batch, mel_len, 256]
text_mask --- [batch, seq_len, 1]
attn_mask --- [batch, seq_len, mel_len]
"""

# Attention
enc_out , attn , fr_max = ref_attention ( enc_text , enc_audio , enc_audio ,
                                        mel_len , mask = attn_mask , query_mask = text_mask )

อย่างที่คุณเห็น SMA จะส่งคืน Fusion Text-Audio ในขนาดข้อความ ( seq_len ) โดยไม่คำนึงถึงขนาดเสียง ( mel_len )

หมายเหตุ

hp.sma_tunable เป็นไฮเปอร์พารามิเตอร์ที่สามารถสลับรูปแบบการปรับแต่งของความสนใจแบบหลายหัวแบบแบบโมโนโทนิก หากตั้งค่า True ความสนใจแบบหลายเฮดแบบโมโนโทนิกจะถูกเปิดใช้งาน มิฉะนั้นมันเป็นความสนใจแบบหลายหัวแบบปกติเช่นเดียวกับในหม้อแปลง เช่นเดียวกับในการเพิ่มความน่าเบื่อหน่ายสำหรับ TRANSOURTION AUTOREGRESSISTICRESS TURNATER TWS (เราจะเรียกว่าบทความนี้เป็น 'เอกสารอ้างอิง' ในเอกสารต่อไปนี้) ตัวอย่างเช่นคุณอาจฝึกอบรมโมดูลโดยไม่ต้องใช้ sma_tunable=True สำหรับขั้นตอนบางอย่างเพื่อการฝึกอบรมที่เร็วขึ้น
expectation() คือการคำนวณคะแนนความคาดหวังแบบโมโนโทนิกแบบขั้นตอนซึ่งแสดงว่าเป็น alpha ในกระดาษอ้างอิง
ในการใช้งานปัจจุบันแบบสอบถามมาจากการเข้ารหัสข้อความ (เอาต์พุตของ encoder ในเฟรมเวิร์ก TTS ทั่วไป) และคีย์และค่ามาจากการเข้ารหัส mel-spectrogram (เอาต์พุตของ reference encoder ในเฟรมการเข้ารหัส mel-spectrogram ทั่วไปเช่น เป็นผลให้โมดูล SMA ปัจจุบันแปลงการเข้ารหัส mel-spectrogram จากความยาวของ mel-spectrogram เป็นความยาวของข้อความ คุณต้องปรับเปลี่ยนมิติ (โดยเฉพาะอย่างยิ่งในฟังก์ชั่น expectation ) ของการสืบค้นคีย์และค่าขึ้นอยู่กับงาน
ในระหว่างขั้นตอนการปรับจูน (การเพิ่มประสิทธิภาพแบบโมโนโทนิก) กับ SMA ฟังก์ชั่น focused_head จะเลือกการจัดตำแหน่งแนวทแยงมุมที่ดีที่สุด (เพิ่มขึ้น monotonically) ระหว่างหัว มันเป็นไปตาม 'อัตราการโฟกัส' ในกรอบ FastSpeech เช่นเดียวกับในกระดาษอ้างอิง แตกต่างจากกระดาษอ้างอิงหัวที่ได้รับการจัดอันดับสูงสุดจะถูกเลือกแทนที่จะเป็นเกณฑ์ อย่างไรก็ตามคุณสามารถนำมาใช้โดยเพียงเพิ่ม prefixed_threshold (เช่น 0.5 ) ลงในฟังก์ชัน focused_head
คุณสามารถเพลิดเพลินกับรหัสของฉันและคำแนะนำใด ๆ ที่ได้รับการชื่นชม

การอ้างอิง

 @misc{lee2021sma,
  author = {Lee, Keon},
  title = {Stepwise_Monotonic_Multihead_Attention},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/keonlee9420/Stepwise_Monotonic_Multihead_Attention}}
}

การอ้างอิง

ความสนใจทางออนไลน์และเชิงเส้นโดยการบังคับใช้การจัดตำแหน่งแบบโมโนโทนิก
การสร้างแบบจำลองอะคูสติกลำดับที่มีความแข็งแกร่งด้วยความสนใจแบบโมโนโทนิกแบบขั้นตอนสำหรับ TTS ของระบบประสาท [รหัสของผู้เขียน]
ความสนใจหลายเฮดแบบโมโนโทนิก
การเพิ่มความซ้ำซ้อนสำหรับ TRANGER AUTOREGRESS
การใช้งานของ Hirofumi0810 ของการใช้ monotonic (multihead) chunkwise

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-08-20
ขนาด 866.02KB
มาจาก Github

แอปที่เกี่ยวข้อง

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
หมา_สุนัขจิ้งจอก_กระต่าย

2022-08-01
เครื่องมือวิเคราะห์ข้อมูล Lihua เวอร์ชันฟรี 3.0_search_navigation_collection_public comment_ranking_api

2022-06-28

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ML stack

โค้ดแหล่งที่มา AI

1.0.0
awesome free chatgpt

โค้ดแหล่งที่มา AI

1.0.0
pywin_contextmenu

โค้ดแหล่งที่มา AI

Version update
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด