Download Download Stepwise_Monotonic_Multihead_Attention - Download Kode Sumber Stepwise_Monotonic_Multihead

Stepwise_Monotonic_Multihead_Attention

Kode Sumber AI

1.0.0

Unduh

Stepwise_monotonic_multihead_attention

Pytorch Implementasi Perhatian Multihead Monotonik bertahap (SMA) Mirip dengan meningkatkan monotonisitas untuk TT transformator autoregresif yang kuat

Contoh hasil

Anda dapat menerapkan SMA untuk mencocokkan Mel-Spectrogram dengan teks dalam panjang urutan. Di bawah ini adalah beberapa hasil yang menunjukkan efektivitas SMA. Angka pertama adalah penyelarasan tanpa SMA ( hp.sma_tunable=False ) pada langkah 115k. Sosok kedua adalah satu dengan tunning SMA ( hp.sma_tunable=True ) pada langkah 125k.

Seperti yang Anda lihat, saya dapat mengonfirmasi bahwa perataannya menjadi sangat kuat dari perhatian multi -kepala normal setelah menerapkan tunning SMA.

Penggunaan

Pertama, tentukan SMA. Katakanlah kita memiliki 256 pengkodean dimensi dan perhatian 4-multi.

 from sma import StepwiseMonotonicMultiheadAttention

ref_attention = StepwiseMonotonicMultiheadAttention ( 256 , 256 // 4 , 256 // 4 )

Dan kemudian, Anda bisa menerapkan perhatian dan mendapatkan keselarasan sebagai berikut. mel_len adalah ukuran bingkai audio referensi, dan seq_len adalah panjang teks input (yang biasanya merupakan urutan fonem). fr_max adalah nilai maksimum laju fokus dari fungsi focused_head() . Baik text_mask dan attn_mask memiliki 1. Untuk nilai -nilai yang akan ditutup dan 0. agar orang lain disimpan.

 """
enc_out --- [batch, seq_len, 256]
attn --- [batch, seq_len, mel_len] 
enc_text --- [batch, seq_len, 256]
enc_audio --- [batch, mel_len, 256]
text_mask --- [batch, seq_len, 1]
attn_mask --- [batch, seq_len, mel_len]
"""

# Attention
enc_out , attn , fr_max = ref_attention ( enc_text , enc_audio , enc_audio ,
                                        mel_len , mask = attn_mask , query_mask = text_mask )

Seperti yang Anda lihat, SMA mengembalikan fusi teks-audio dalam ukuran teks ( seq_len ) terlepas dari ukuran audio ( mel_len ).

Catatan

hp.sma_tunable adalah hiperparameter yang dapat beralih dari skema tunning perhatian multi -kepala bertahap monotonik. Jika ditetapkan True , perhatian multi -stepwise monotonik diaktifkan. Lain, ini adalah perhatian multi -kepala yang normal, seperti di Transformer. Seperti dalam meningkatkan monotonisitas untuk TT transformator autoregresif yang kuat (kami akan menyebut makalah ini sebagai 'kertas referensi' dalam dokumen -dokumen berikut), misalnya, Anda dapat melatih modul tanpa SMA untuk langkah -langkah tertentu ke pelatihan dan model yang lebih cepat, dan kemudian mengaktifkan SMA dengan mengatur sma_tunable=True untuk membuat alignment monotonik yang kuat dalam beberapa langkah.
expectation() adalah skor ekspektasi monotonik bertahap menghitung yang dilambangkan sebagai alpha dalam kertas referensi.
Dalam implementasi saat ini, kueri adalah dari pengkodean teks (output encoder dalam kerangka kerja TTS umum) dan kunci dan nilainya berasal dari pengkodean Mel-spectrogram (output dari reference encoder dalam kerangka pengkodean pengkodean spektrogram Mel-Mel umum, misalnya, enkoder referensi dalam skema GST). Akibatnya, modul SMA saat ini mengonversi pengkodean Mel-spectrogram dari panjang Mel-spectrogram ke panjang teks. Anda harus dengan hati -hati memodifikasi dimensi (terutama dalam fungsi expectation ) dari kueri, kunci, dan nilai tergantung pada tugas.
Selama fase tunning (peningkatan monotonik) dengan SMA, fungsi focused_head akan memilih penyelarasan diagonal terbaik (peningkatan monotonik) di antara kepala. Ini mengikuti 'laju fokus' dalam kerangka fastspeech seperti pada makalah referensi. Berbeda dari kertas referensi, kepala peringkat fokus maksimum dipilih daripada dengan ambang batas. Namun, Anda dapat mengadopsinya dengan hanya menambahkan prefixed_threshold (misalnya, 0.5 ) ke fungsi focused_head .
Anda dapat menikmati kode saya, dan saran apa pun dihargai.

Kutipan

 @misc{lee2021sma,
  author = {Lee, Keon},
  title = {Stepwise_Monotonic_Multihead_Attention},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/keonlee9420/Stepwise_Monotonic_Multihead_Attention}}
}

Referensi

Perhatian online dan linier dengan menegakkan keberpihakan monotonik
Pemodelan akustik urutan ke urutan yang kuat dengan perhatian monotonik bertahap untuk TTS Neural [Kode Penulis]
Perhatian multi -kepala monotonik
Meningkatkan monotonisitas untuk TT transformator autoregresif yang kuat
Implementasi Perhatian Monotonik (MULTIEHET) HIROFUMI0810

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-08-20
ukuran 866.02KB
Berasal dari Github

Aplikasi Terkait

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
Anjing_Rubah_Kelinci

2022-08-01
Mesin analisis data Lihua versi gratis 3.0_search_navigation_collection_public opinion_ranking_api

2022-06-28

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua