sat ( SwissArmyTransformer ) هي مكتبة مرنة وقوية لتطوير متغيرات المحولات الخاصة بك.
تم تسمية sat باسم "سكين الجيش السويسري" ، مما يعني أن جميع النماذج (على سبيل المثال Bert و GPT و T5 و GLM و Cogview و VIT ...) تشترك في نفس رمز العمود الفقري وتلبية احتياجات الاستخدامات متعددة الاستخدامات مع بعض الخليطات الخفيفة الوزن الإضافية.
يتم تشغيل sat بواسطة deepspeed-ZeRO وموازاة النموذج ، تهدف إلى توفير أفضل الممارسات لما قبل النماذج الكبيرة المسبقة والاستعادة (100 متر ~ 20B).
pip install SwissArmyTransformer
أضف مكونات النماذج المنبثقة ، على سبيل المثال تبني البادئة ، في سطر واحد فقط!
class ClassificationModel ( GLMModel ): # can also be BertModel, RobertaModel, etc.
def __init__ ( self , args , transformer = None , ** kwargs ):
super (). __init__ ( args , transformer = transformer , ** kwargs )
self . add_mixin ( 'classification_head' , MLPHeadMixin ( args . hidden_size , 2048 , 1 ))
# Arm an arbitrary model with Prefix-tuning with this line!
self . add_mixin ( 'prefix-tuning' , PrefixTuningMixin ( args . num_layers , args . hidden_size // args . num_attention_heads , args . num_attention_heads , args . prefix_len )) model , args = AutoModel . from_pretrained ( 'glm-10b-chinese' , args )
model . add_mixin ( 'auto-regressive' , CachedAutoregressiveMixin ())
# Generate a sequence with beam search
from sat . generation . autoregressive_sampling import filling_sequence
from sat . generation . sampling_strategies import BeamSearchStrategy
output , * mems = filling_sequence ( model , input_seq ,
batch_size = args . batch_size ,
strategy = BeamSearchStrategy ( args . batch_size ))قم ببناء نموذجك المستند إلى المحول مع الحد الأدنى من الرموز . لقد ذكرنا GLM ، الذي يختلف فقط عن المحول القياسي (يسمى basemodel) على التضمين الموقف (وخسائر التدريب). نحتاج فقط إلى التركيز على الجزء ذي الصلة عند الترميز.
class BlockPositionEmbeddingMixin ( BaseMixin ):
# Here define parameters for the mixin
def __init__ ( self , max_sequence_length , hidden_size , init_method_std = 0.02 ):
super ( BlockPositionEmbeddingMixin , self ). __init__ ()
self . max_sequence_length = max_sequence_length
self . hidden_size = hidden_size
self . block_position_embeddings = torch . nn . Embedding ( max_sequence_length , hidden_size )
torch . nn . init . normal_ ( self . block_position_embeddings . weight , mean = 0.0 , std = init_method_std )
# Here define the method for the mixin
def position_embedding_forward ( self , position_ids , ** kwargs ):
position_ids , block_position_ids = position_ids [:, 0 ], position_ids [:, 1 ]
position_embeddings = self . transformer . position_embeddings ( position_ids )
block_position_embeddings = self . block_position_embeddings ( block_position_ids )
return position_embeddings + block_position_embeddings
class GLMModel ( BaseModel ):
def __init__ ( self , args , transformer = None ):
super (). __init__ ( args , transformer = transformer )
self . add_mixin ( 'block_position_embedding' ,
BlockPositionEmbeddingMixin ( args . max_sequence_length , args . hidden_size )
) # Add the mixin for GLM الدعم الشامل للتدريب . يهدف sat إلى توفير أفضل الممارسات للتدريب المسبق والتحديد ، حيث تحتاج فقط إلى الانتهاء من forward_step و create_dataset_function ولكن مع وجود فرطميات لتغيير تكوينات التدريب المفيدة.
--num_nodes ، --num_gpus و hostfile بسيطة.memmap . ملف Python الأكثر نموذجية لاستخدام Bert في SAT (للاستدلال) هو كما يلي:
# @File: inference_bert.py
from sat import get_args , get_tokenizer , AutoModel
# Parse args, initialize the environment. This is necessary.
args = get_args ()
# Automatically download and load model. Will also dump model-related hyperparameters to args.
model , args = AutoModel . from_pretrained ( 'bert-base-uncased' , args )
# Get the BertTokenizer according to args.tokenizer_type (automatically set).
tokenizer = get_tokenizer ( args )
# Here to use bert as you want!
# ...ثم يمكننا تشغيل الرمز عبر
SAT_HOME=/path/to/download python inference_bert.py --mode inferenceجميع أسماء النماذج المدعومة رسميًا في urls.py.
إلى FineTune أو PretRain المحول هو أيضا سهل للغاية!
# @File: finetune_bert.py
from sat import get_args , get_tokenizer , AutoModel
from sat . model . mixins import MLPHeadMixin
def create_dataset_function ( path , args ):
# Here to load the dataset
# ...
assert isinstance ( dataset , torch . utils . data . Dataset )
return dataset
def forward_step ( data_iterator , model , args , timers ):
inputs = next ( data_iterator ) # from the dataset of create_dataset_function.
loss , * others = model ( inputs )
return loss
# Parse args, initialize the environment. This is necessary.
args = get_args ()
model , args = AutoModel . from_pretrained ( 'bert-base-uncased' , args )
tokenizer = get_tokenizer ( args )
# Here to use bert as you want!
model . del_mixin ( 'bert-final' )
model . add_mixin ( 'classification_head' , MLPHeadMixin ( args . hidden_size , 2048 , 1 ))
# ONE LINE to train!
# args already includes hyperparams such as lr, train-iters, zero-stage ...
training_main ( args ,
model_cls = model ,
forward_step_function = forward_step , # user define
create_dataset_function = create_dataset_function # user define
)ثم يمكننا تشغيل الرمز عبر
deepspeed --include localhost:0,1 finetune_bert.py
--experiment-name ftbert
--mode finetune --train-iters 1000 --save /path/to/save
--train-data /path/to/train --valid-data /path/to/valid
--lr 0.00002 --batch-size 8 --zero-stage 1 --fp16 هنا نستخدم البيانات المتوازية على GPUS 0،1. يمكننا أيضًا إطلاق التدريب على العديد من الآلات بين الاتصالات عبر- --hostfile /path/to/hostfile . انظر البرنامج التعليمي لمزيد من التفاصيل.
لكتابة النموذج الخاص بك ، تحتاج فقط إلى النظر في الفرق بين المحول القياسي. على سبيل المثال ، إذا كانت لديك فكرة لتحسين عملية الانتباه:
from sat . model import BaseMixin
class MyAttention ( BaseMixin ):
def __init__ ( self , hidden_size ):
super ( MyAttention , self ). __init__ ()
# MyAttention may needs some new params, e.g. a learnable alpha.
self . learnable_alpha = torch . nn . Parameter ( torch . ones ( hidden_size ))
# This is a hook function, the name `attention_fn` is special.
def attention_fn ( q , k , v , mask , dropout = None , ** kwargs ):
# Code for my attention.
# ...
return attention_results هنا هي وظيفة attention_fn ، تحل محل الإجراء الافتراضي حسب الوظيفة الجديدة. جميع الخطافات المتاحة موجودة في Transformer_Defaults.py. الآن يمكننا استخدام add_mixin لتطبيق تغييرنا على جميع المحولات ، مثل Bert و VIT و COGVIEW. انظر البرنامج التعليمي لمزيد من التفاصيل.
حاليًا ليس لدينا ورقة ، لذلك لا تحتاج إلى الاستشهاد بنا رسميًا! ~
إذا كان هذا المشروع يساعد بحثك أو هندسيتك ، فاستخدم footnote{https://github.com/THUDM/SwissArmyTransformer} لذكرنا والتوصية بنقل SwissArmyTransformer للآخرين.
البرنامج التعليمي للمساهمة SAT في الطريق!
يعتمد المشروع على (مستخدم) Deepspeed و Megatron-LM ومحولات Huggingface. شكرا لعملهم الرائع.