Pytorchと?トランス。
Pypiからライブラリをインストールします。
pip install transformers-embedderまたはコンドラから:
conda install -c riccorl transformers-embedderPytorch層と、Huggingface?Transformers Libraryのほぼすべての事前に処理されたモデルをサポートするトークネイザーを提供します。簡単な例を次に示します。
import transformers_embedder as tre
tokenizer = tre . Tokenizer ( "bert-base-cased" )
model = tre . TransformersEmbedder (
"bert-base-cased" , subword_pooling_strategy = "sparse" , layer_pooling_strategy = "mean"
)
example = "This is a sample sentence"
inputs = tokenizer ( example , return_tensors = True ) {
'input_ids': tensor([[ 101, 1188, 1110, 170, 6876, 5650, 102]]),
'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1]]),
'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0]])
'scatter_offsets': tensor([[0, 1, 2, 3, 4, 5, 6]]),
'sparse_offsets': {
'sparse_indices': tensor(
[
[0, 0, 0, 0, 0, 0, 0],
[0, 1, 2, 3, 4, 5, 6],
[0, 1, 2, 3, 4, 5, 6]
]
),
'sparse_values': tensor([1., 1., 1., 1., 1., 1., 1.]),
'sparse_size': torch.Size([1, 7, 7])
},
'sentence_length': 7 # with special tokens included
}
outputs = model ( ** inputs ) # outputs.word_embeddings.shape[1:-1] # remove [CLS] and [SEP]
torch.Size([1, 5, 768])
# len(example)
5
トランスベースのモデルを使用することの迷惑の1つは、出力するサブトークンの埋め込みから単語の埋め込みを計算することは些細なことではないことです。このAPIを使用すると、それがサポートするすべてのトランスモデルから単語レベルの埋め込みを取得するために、トランスを使用するのと同じくらい簡単です。
TransformersEmbedderクラスは、埋め込みを取得する3つの方法を提供します。
subword_pooling_strategy="sparse" :スパースマトリックスの乗算を使用して、各単語のサブトークンの埋め込みの平均を計算します(つまり、サブトケンの埋め込みは一緒にプールされます)。この戦略はデフォルトの戦略です。subword_pooling_strategy="scatter" :散布採取操作を使用して、各単語のサブトークンの埋め込みの平均を計算します。決定論的ではありませんが、ONNXエクスポートで動作します。subword_pooling_strategy="none" :サブトークンプーリングなしでトランスモデルの生の出力を返します。ここに小さな機能テーブル:
| プーリング | 決定論的 | onnx | |
|---|---|---|---|
| まばら | ✅ | ✅ | |
| 散乱 | ✅ | ✅ | |
| なし | ✅ | ✅ |
また、 layer_pooling_strategyパラメーターを使用して取得できる複数のタイプの出力もあります。
layer_pooling_strategy="last" :変圧器モデルの最後の隠し状態を返しますlayer_pooling_strategy="concat" :選択したoutput_layersの連結を返しますlayer_pooling_strategy="sum" :トランスモデルの選択したoutput_layersの合計を返しますlayer_pooling_strategy="mean" :トランスモデルの選択したoutput_layersの平均を返しますlayer_pooling_strategy="scalar_mix" :トランスモデルの選択したoutput_layersのパラメーター化されたスカラー混合層の出力を返しますHuggingfaceモデルからすべての出力が必要な場合は、 return_all=Trueを設定して取得できます。
class TransformersEmbedder ( torch . nn . Module ):
def __init__ (
self ,
model : Union [ str , tr . PreTrainedModel ],
subword_pooling_strategy : str = "sparse" ,
layer_pooling_strategy : str = "last" ,
output_layers : Tuple [ int ] = ( - 4 , - 3 , - 2 , - 1 ),
fine_tune : bool = True ,
return_all : bool = True ,
)Tokenizerクラスは、 tokenize方法を提供し、 TransformersEmbedder層層の入力を前処理します。生の文章、トークン化された文章、および文章をバッチで渡すことができます。モデルの入力を使用して辞書を返すように前処理します。 return_tensors=Trueを渡すことにより、入力をtorch.Tensorとして返します。
デフォルトでは、テキスト(またはバッチ)を文字列として渡すと、ハグするフェイストークンを使用してトークン化します。
text = "This is a sample sentence"
tokenizer ( text )
text = [ "This is a sample sentence" , "This is another sample sentence" ]
tokenizer ( text ) is_split_into_words=Trueを設定することにより、トークン化された文(または文のバッチ)を渡すことができます
text = [ "This" , "is" , "a" , "sample" , "sentence" ]
tokenizer ( text , is_split_into_words = True )
text = [
[ "This" , "is" , "a" , "sample" , "sentence" , "1" ],
[ "This" , "is" , "sample" , "sentence" , "2" ],
]
tokenizer ( text , is_split_into_words = True )まず、トークネザーを初期化します
import transformers_embedder as tre
tokenizer = tre . Tokenizer ( "bert-base-cased" ) text = "This is a sample sentence"
tokenizer ( text ) {
{
'input_ids': [[101, 1188, 1110, 170, 6876, 5650, 102]],
'token_type_ids': [[0, 0, 0, 0, 0, 0, 0]],
'attention_mask': [[1, 1, 1, 1, 1, 1, 1]],
'scatter_offsets': [[0, 1, 2, 3, 4, 5, 6]],
'sparse_offsets': {
'sparse_indices': tensor(
[
[0, 0, 0, 0, 0, 0, 0],
[0, 1, 2, 3, 4, 5, 6],
[0, 1, 2, 3, 4, 5, 6]
]
),
'sparse_values': tensor([1., 1., 1., 1., 1., 1., 1.]),
'sparse_size': torch.Size([1, 7, 7])
},
'sentence_lengths': [7],
}
text = "This is a sample sentence A"
text_pair = "This is a sample sentence B"
tokenizer ( text , text_pair ) {
'input_ids': [[101, 1188, 1110, 170, 6876, 5650, 138, 102, 1188, 1110, 170, 6876, 5650, 139, 102]],
'token_type_ids': [[0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1]],
'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]],
'scatter_offsets': [[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14]],
'sparse_offsets': {
'sparse_indices': tensor(
[
[ 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
[ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14],
[ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14]
]
),
'sparse_values': tensor([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]),
'sparse_size': torch.Size([1, 15, 15])
},
'sentence_lengths': [15],
}
padding=Trueおよびreturn_tensors=Trueを使用すると、トークネザーはモデルの準備ができているテキストを返します batch = [
[ "This" , "is" , "a" , "sample" , "sentence" , "1" ],
[ "This" , "is" , "sample" , "sentence" , "2" ],
[ "This" , "is" , "a" , "sample" , "sentence" , "3" ],
# ...
[ "This" , "is" , "a" , "sample" , "sentence" , "n" , "for" , "batch" ],
]
tokenizer ( batch , padding = True , return_tensors = True )
batch_pair = [
[ "This" , "is" , "a" , "sample" , "sentence" , "pair" , "1" ],
[ "This" , "is" , "sample" , "sentence" , "pair" , "2" ],
[ "This" , "is" , "a" , "sample" , "sentence" , "pair" , "3" ],
# ...
[ "This" , "is" , "a" , "sample" , "sentence" , "pair" , "n" , "for" , "batch" ],
]
tokenizer ( batch , batch_pair , padding = True , return_tensors = True )モデル入力にカスタムフィールドを追加し、 add_padding_opsを使用してそれらをパッドする方法をtokenizerに伝えることができます。モデル名でトークネイザーを初期化することから始めます。
import transformers_embedder as tre
tokenizer = tre . Tokenizer ( "bert-base-cased" )次に、カスタムフィールドを追加します。
custom_fields = {
"custom_filed_1" : [
[ 0 , 0 , 0 , 0 , 1 , 0 , 0 ],
[ 0 , 0 , 0 , 0 , 1 , 0 , 0 , 0 , 0 , 1 , 0 ]
]
}これで、カスタムフィールドcustom_filed_1にパディングロジックを追加できます。 add_padding_opsメソッドが入力を取り入れます
key :トークナイザー入力のフィールドの名前value :パディングに使用する値length :パッドまでの長さ。 int 、または2つの文字列値、サブワードの長さと一致する要素がパッドが付けられているsubword 、およびサブワードのマージ後のバッチの長さに対して要素がパッドが付いているwordである場合があります。 tokenizer . add_padding_ops ( "custom_filed_1" , 0 , "word" )最後に、カスタムフィールドで入力をトークン化できます。
text = [
"This is a sample sentence" ,
"This is another example sentence just make it longer, with a comma too!"
]
tokenizer ( text , padding = True , return_tensors = True , additional_inputs = custom_fields )入力は、提出されたカスタムを含むモデルの準備ができています。
>>> inputs
{
'input_ids': tensor(
[
[ 101, 1188, 1110, 170, 6876, 5650, 102, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
[ 101, 1188, 1110, 1330, 1859, 5650, 1198, 1294, 1122, 2039, 117, 1114, 170, 3254, 1918, 1315, 106, 102]
]
),
'token_type_ids': tensor(
[
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
]
),
'attention_mask': tensor(
[
[1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
]
),
'scatter_offsets': tensor(
[
[ 0, 1, 2, 3, 4, 5, 6, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1],
[ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 13, 14, 15, 16]
]
),
'sparse_offsets': {
'sparse_indices': tensor(
[
[ 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
[ 0, 1, 2, 3, 4, 5, 6, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 13, 14, 15, 16],
[ 0, 1, 2, 3, 4, 5, 6, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17]
]
),
'sparse_values': tensor(
[1.0000, 1.0000, 1.0000, 1.0000, 1.0000, 1.0000, 1.0000, 1.0000, 1.0000,
1.0000, 1.0000, 1.0000, 1.0000, 1.0000, 1.0000, 1.0000, 1.0000, 1.0000,
1.0000, 1.0000, 0.5000, 0.5000, 1.0000, 1.0000, 1.0000]
),
'sparse_size': torch.Size([2, 17, 18])
}
'sentence_lengths': [7, 17],
}
TransformersEmbedderクラスのいくつかのコードは、Pytorch Scatterライブラリから取得されます。事前に守られたモデルとトークン剤の中核は?トランス。