Téléchargement transformers embedder - Téléchargement du code source transformers embedder

transformers embedder

Code Source AI

3.0.11

Télécharger

TRANSFORMERS ENCHEDDER

Une couche de transformateur de niveau de mot basé sur pytorch et? Transformateurs.

Comment utiliser

Installez la bibliothèque depuis PYPI:

pip install transformers-embedder

ou de conda:

conda install -c riccorl transformers-embedder

Il propose une couche Pytorch et un tokenizer qui prennent en charge presque tous les modèles pré-entraînés de la bibliothèque Transformers HuggingFace? Voici un exemple rapide:

 import transformers_embedder as tre

tokenizer = tre . Tokenizer ( "bert-base-cased" )

model = tre . TransformersEmbedder (
    "bert-base-cased" , subword_pooling_strategy = "sparse" , layer_pooling_strategy = "mean"
)

example = "This is a sample sentence"
inputs = tokenizer ( example , return_tensors = True )

 {
   'input_ids': tensor([[ 101, 1188, 1110, 170, 6876, 5650,  102]]),
   'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1]]),
   'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0]])
   'scatter_offsets': tensor([[0, 1, 2, 3, 4, 5, 6]]),
   'sparse_offsets': {
        'sparse_indices': tensor(
            [
                [0, 0, 0, 0, 0, 0, 0],
                [0, 1, 2, 3, 4, 5, 6],
                [0, 1, 2, 3, 4, 5, 6]
            ]
        ), 
        'sparse_values': tensor([1., 1., 1., 1., 1., 1., 1.]), 
        'sparse_size': torch.Size([1, 7, 7])
    },
   'sentence_length': 7  # with special tokens included
}

 outputs = model ( ** inputs )

 # outputs.word_embeddings.shape[1:-1]       # remove [CLS] and [SEP]
torch.Size([1, 5, 768])
# len(example)
5

Informations

L'une des gênements de l'utilisation de modèles basés sur les transformateurs est qu'il n'est pas trivial de calculer les incorporations de mots à partir des incorporations de sous-token qu'ils publient. Avec cette API, c'est aussi simple que d'utiliser? Transformers pour obtenir des intégres de niveau de mot à partir théoriquement chaque modèle de transformateur qu'il prend en charge.

Modèle

Stratégie de mise en commun des sous-mots

La classe TransformersEmbedder offre 3 façons d'obtenir les intégres:

subword_pooling_strategy="sparse" : calcule la moyenne des intégres des sous-tokens de chaque mot (c'est-à-dire que les intégres des sous-tokens sont regroupés) en utilisant une multiplication de matrice clairsemée. Cette stratégie est la par défaut.
subword_pooling_strategy="scatter" : calcule la moyenne des intégres des sous-tokens de chaque mot à l'aide d'une opération de dispersion-gather. Ce n'est pas déterministe, mais il fonctionne avec l'exportation ONNX.
subword_pooling_strategy="none" : Renvoie la sortie brute du modèle de transformateur sans regroupement de sous-token.

Ici une petite table de fonctionnalité:

	Accélération	Déterministe	Onnx
Clairsemé	✅	✅
Dispersion	✅		✅
Aucun		✅	✅

Stratégie de mise en commun de couches

Il existe également plusieurs types de sorties que vous pouvez obtenir en utilisant le paramètre layer_pooling_strategy :

layer_pooling_strategy="last" : renvoie le dernier état caché du modèle de transformateur
layer_pooling_strategy="concat" : renvoie la concaténation de la output_layers sélectionnée_layers du
modèle de transformateur
layer_pooling_strategy="sum" : renvoie la somme de la output_layers sélectionnée_layers du modèle de transformateur
layer_pooling_strategy="mean" : renvoie la moyenne de l' output_layers sélectionné du modèle de transformateur
layer_pooling_strategy="scalar_mix" : renvoie la sortie d'une couche de mélange scalaire paramétré de l' output_layers sélectionné du modèle de transformateur

Si vous souhaitez également toutes les sorties du modèle HuggingFace, vous pouvez définir return_all=True pour les obtenir.

 class TransformersEmbedder ( torch . nn . Module ):
    def __init__ (
        self ,
        model : Union [ str , tr . PreTrainedModel ],
        subword_pooling_strategy : str = "sparse" ,
        layer_pooling_strategy : str = "last" ,
        output_layers : Tuple [ int ] = ( - 4 , - 3 , - 2 , - 1 ),
        fine_tune : bool = True ,
        return_all : bool = True ,
    )

Jetons

La classe Tokenizer fournit la méthode tokenize pour prétraiter l'entrée pour la couche TransformersEmbedder . Vous pouvez passer des phrases brutes, des phrases pré-tendues et des phrases en lot. Il les préparera à renvoyer un dictionnaire avec les entrées du modèle. En passant return_tensors=True il renverra les entrées comme torch.Tensor .

Par défaut, si vous passez du texte (ou du lot) en tant que chaînes, il utilise le tokenizer HuggingFace pour les tokenize.

 text = "This is a sample sentence"
tokenizer ( text )

text = [ "This is a sample sentence" , "This is another sample sentence" ]
tokenizer ( text )

Vous pouvez transmettre une phrase pré-tente (ou un lot de phrases) en définissant is_split_into_words=True

 text = [ "This" , "is" , "a" , "sample" , "sentence" ]
tokenizer ( text , is_split_into_words = True )

text = [
    [ "This" , "is" , "a" , "sample" , "sentence" , "1" ],
    [ "This" , "is" , "sample" , "sentence" , "2" ],
]
tokenizer ( text , is_split_into_words = True )

Exemples

Tout d'abord, initialisez le jetons

 import transformers_embedder as tre

tokenizer = tre . Tokenizer ( "bert-base-cased" )

Vous pouvez transmettre une seule phrase en tant que chaîne:

 text = "This is a sample sentence"
tokenizer ( text )

 {
{
    'input_ids': [[101, 1188, 1110, 170, 6876, 5650, 102]],
    'token_type_ids': [[0, 0, 0, 0, 0, 0, 0]],
    'attention_mask': [[1, 1, 1, 1, 1, 1, 1]],
    'scatter_offsets': [[0, 1, 2, 3, 4, 5, 6]],
    'sparse_offsets': {
        'sparse_indices': tensor(
            [
                [0, 0, 0, 0, 0, 0, 0],
                [0, 1, 2, 3, 4, 5, 6],
                [0, 1, 2, 3, 4, 5, 6]
            ]
        ),
        'sparse_values': tensor([1., 1., 1., 1., 1., 1., 1.]),
        'sparse_size': torch.Size([1, 7, 7])
    },
    'sentence_lengths': [7],
}

Une paire de phrases

 text = "This is a sample sentence A"
text_pair = "This is a sample sentence B"
tokenizer ( text , text_pair )

 {
    'input_ids': [[101, 1188, 1110, 170, 6876, 5650, 138, 102, 1188, 1110, 170, 6876, 5650, 139, 102]],
    'token_type_ids': [[0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1]],
    'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]],
    'scatter_offsets': [[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14]],
    'sparse_offsets': {
        'sparse_indices': tensor(
            [
                [ 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,  0],
                [ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14],
                [ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14]
            ]
        ),
        'sparse_values': tensor([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]),
        'sparse_size': torch.Size([1, 15, 15])
    },
    'sentence_lengths': [15],
}

Un lot de phrases ou de paires de phrases. Utilisation padding=True et return_tensors=True , le tokenzer renvoie le texte prêt pour le modèle

 batch = [
    [ "This" , "is" , "a" , "sample" , "sentence" , "1" ],
    [ "This" , "is" , "sample" , "sentence" , "2" ],
    [ "This" , "is" , "a" , "sample" , "sentence" , "3" ],
    # ...
    [ "This" , "is" , "a" , "sample" , "sentence" , "n" , "for" , "batch" ],
]
tokenizer ( batch , padding = True , return_tensors = True )

batch_pair = [
    [ "This" , "is" , "a" , "sample" , "sentence" , "pair" , "1" ],
    [ "This" , "is" , "sample" , "sentence" , "pair" , "2" ],
    [ "This" , "is" , "a" , "sample" , "sentence" , "pair" , "3" ],
    # ...
    [ "This" , "is" , "a" , "sample" , "sentence" , "pair" , "n" , "for" , "batch" ],
]
tokenizer ( batch , batch_pair , padding = True , return_tensors = True )

Champs personnalisés

Il est possible d'ajouter des champs personnalisés à l'entrée du modèle et de dire au tokenizer comment les remplir à l'aide add_padding_ops . Commencez par initialiser le tokenizer avec le nom du modèle:

 import transformers_embedder as tre

tokenizer = tre . Tokenizer ( "bert-base-cased" )

Puis ajoutez-y les champs personnalisés:

 custom_fields = {
  "custom_filed_1" : [
    [ 0 , 0 , 0 , 0 , 1 , 0 , 0 ],
    [ 0 , 0 , 0 , 0 , 1 , 0 , 0 , 0 , 0 , 1 , 0 ]
  ]
}

Nous pouvons maintenant ajouter la logique de rembourrage pour notre champ personnalisé custom_filed_1 . add_padding_ops La méthode prend l'entrée

key : nom du champ dans l'entrée du tokenzer
value : valeur à utiliser pour le rembourrage
length : longueur à pad. Il peut s'agir d'un subword int ou de deux chaînes dans lequel l'élément est rembourré pour correspondre à la longueur des sous-mots, et word où l'élément est rembourré par rapport à la longueur du lot après la fusion des sous-mots.

 tokenizer . add_padding_ops ( "custom_filed_1" , 0 , "word" )

Enfin, nous pouvons tokeniser l'entrée avec le champ personnalisé:

 text = [
    "This is a sample sentence" ,
    "This is another example sentence just make it longer, with a comma too!"
]

tokenizer ( text , padding = True , return_tensors = True , additional_inputs = custom_fields )

Les entrées sont prêtes pour le modèle, y compris la personnalité déposée.

 >>> inputs

{
    'input_ids': tensor(
        [
            [ 101, 1188, 1110, 170, 6876, 5650, 102, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
            [ 101, 1188, 1110, 1330, 1859, 5650, 1198, 1294, 1122, 2039, 117, 1114, 170, 3254, 1918, 1315, 106, 102]
        ]
    ),
    'token_type_ids': tensor(
        [
            [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
            [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
        ]
    ), 
    'attention_mask': tensor(
        [
            [1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
            [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
        ]
    ),
    'scatter_offsets': tensor(
        [
            [ 0, 1, 2, 3, 4, 5, 6, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1],
            [ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 13, 14, 15, 16]
        ]
    ),
    'sparse_offsets': {
        'sparse_indices': tensor(
            [
                [ 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,  1],
                [ 0, 1, 2, 3, 4, 5, 6, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 13, 14, 15, 16],
                [ 0, 1, 2, 3, 4, 5, 6, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17]
            ]
        ),
        'sparse_values': tensor(
            [1.0000, 1.0000, 1.0000, 1.0000, 1.0000, 1.0000, 1.0000, 1.0000, 1.0000,
            1.0000, 1.0000, 1.0000, 1.0000, 1.0000, 1.0000, 1.0000, 1.0000, 1.0000,
            1.0000, 1.0000, 0.5000, 0.5000, 1.0000, 1.0000, 1.0000]
        ), 
        'sparse_size': torch.Size([2, 17, 18])
    }
    'sentence_lengths': [7, 17],
}

Remerciements

Certains code de la classe TransformersEmbedder sont tirés de la bibliothèque de diffusion Pytorch. Les modèles pré-entraînés et le cœur du tokenzer proviennent? Transformateurs.

Développer

Informations supplémentaires

Version 3.0.11
Type Code Source AI
Date de mise à jour 2025-09-06
taille 33.22KB
Provenant de Github

Applications connexes

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Transformers : la guerre pour Cybertron

2022-08-19
Transformateurs : De

2022-08-18
Transformers : L'Ascension de l'étincelle sombre

2022-08-17

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout