Stepwise_Monotonic_Multihead_Attention Téléchargement - Stepwise_Monotonic_Multihead

Stepwise_Monotonic_Multihead_Attention

Code Source AI

1.0.0

Télécharger

Étape_monotonic_multihead_attention

Pytorch Mise en œuvre de l'attention multi-tête monotone (SMA) similaire à l'amélioration de la monotonie pour un transformateur autorégressif robuste TTS

Exemples de résultats

Vous pouvez appliquer SMA pour faire correspondre le spectrogramme MEL au texte dans la longueur des séquences. Vous trouverez ci-dessous quelques résultats montrant l'efficacité de la SMA. Le premier chiffre est l'alignement sans SMA ( hp.sma_tunable=False ) à 115k étapes. La deuxième figure est celle avec SMA Tunning ( hp.sma_tunable=True ) à 125k étapes.

Comme vous pouvez le voir, je peux confirmer que l'alignement est très fort que l'attention multi-tête normale après avoir appliqué un tunning SMA.

Usage

Définissez d'abord le SMA. Disons que nous avons un codage dimensionnel 256 et une attention 4-Multihead.

 from sma import StepwiseMonotonicMultiheadAttention

ref_attention = StepwiseMonotonicMultiheadAttention ( 256 , 256 // 4 , 256 // 4 )

Et puis, vous pouvez appliquer l'attention et obtenir un alignement comme suit. mel_len est la taille du trame de l'audio de référence, et seq_len est la longueur du texte d'entrée (qui est généralement une séquence de phonèmes). fr_max est une valeur maximale du taux de mise au point à partir de la fonction focused_head() . text_mask et attn_mask ont 1. Pour des valeurs qui seront masquées et 0. Pour que d'autres soient conservés.

 """
enc_out --- [batch, seq_len, 256]
attn --- [batch, seq_len, mel_len] 
enc_text --- [batch, seq_len, 256]
enc_audio --- [batch, mel_len, 256]
text_mask --- [batch, seq_len, 1]
attn_mask --- [batch, seq_len, mel_len]
"""

# Attention
enc_out , attn , fr_max = ref_attention ( enc_text , enc_audio , enc_audio ,
                                        mel_len , mask = attn_mask , query_mask = text_mask )

Comme vous pouvez le voir, SMA renvoie la fusion de texte audio dans la taille du texte ( seq_len ) quelle que soit la taille de l'audio ( mel_len ).

Notes

hp.sma_tunable est l'hyperparamètre qui peut basculer le schéma de tunning de l'attention multiple monotone pas à pas. S'il est réglé True , l'attention multi-tête monotonique pas à pas est activée. Sinon, c'est une attention normale à plusieurs tête, tout comme dans Transformer. Comme dans l'amélioration de la monotonie pour un transformateur autorégressif robuste TTS (nous appellerons ce document comme un `` document de référence '' dans les documents suivants), par exemple, vous pouvez former un module sans SMA pour certaines étapes vers la formation plus rapide et modèle converge, puis activer SMA en définissant sma_tunable=True pour faire un alignement monotonique fort en quelques étapes.
expectation() est le score d'attente monotonique à étapes de calcul de Fucntion qui est désignée comme alpha dans le document de référence.
Dans l'implémentation actuelle, la requête provient du codage de texte (sortie de encoder dans le cadre TTS général) et la clé et la valeur proviennent du codage de spectrogramme de MEL (sortie du reference encoder dans le cadre général de codage de spectrogramme MEL, par exemple, encodeur de référence dans le schéma de GST). En conséquence, le module SMA actuel convertit le spectrogramme MEL codant de la longueur du spectrogramme de MEL à la longueur du texte. Vous devez modifier attentivement la dimension (en particulier dans la fonction expectation ) de la requête, de la clé et de la valeur en fonction de la tâche.
Pendant la phase de tunning (amélioration monotonique) avec SMA, la fonction focused_head sélectionnera le meilleur alignement diagonal (augmentant monotone) parmi les têtes. Il suit le «taux de mise au point» dans FastSpeech Framework comme dans le document de référence. Différent du papier de référence, la tête notée de mise au point maximale est sélectionnée plutôt que par seuil. Cependant, vous pouvez l'adopter en ajoutant simplement prefixed_threshold (par exemple, 0.5 ) à la fonction focused_head .
Vous pouvez profiter de mon code et toutes les suggestions sont appréciées.

Citation

 @misc{lee2021sma,
  author = {Lee, Keon},
  title = {Stepwise_Monotonic_Multihead_Attention},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/keonlee9420/Stepwise_Monotonic_Multihead_Attention}}
}

Références

Attention en ligne et linéaire en appliquant les alignements monotoniques
Modélisation acoustique de séquence à séquence robuste avec une attention monotone pas à pas pour les TTs neuronaux [Code de l'auteur]
Attention multiple monotone
Amélioration de la monotonie pour un transformateur autorégressif robuste TTS
Implémentation par Hirofumi0810 de l'attention monotone (multi-tête)

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-08-20
taille 866.02KB
Provenant de Github

Applications connexes

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
Chien_Renard_Lapin

2022-08-01
Moteur d'analyse de données Lihua version gratuite 3.0_search_navigation_collection_public opinion_ranking_api

2022-06-28

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout