تنزيل SwissArmyTransformer - تنزيل رمز المصدر SwissArmyTransformer

SwissArmyTransformer

بايثون

1.0.0

تنزيل

مقدمة

sat ( SwissArmyTransformer ) هي مكتبة مرنة وقوية لتطوير متغيرات المحولات الخاصة بك.

تم تسمية sat باسم "سكين الجيش السويسري" ، مما يعني أن جميع النماذج (على سبيل المثال Bert و GPT و T5 و GLM و Cogview و VIT ...) تشترك في نفس رمز العمود الفقري وتلبية احتياجات الاستخدامات متعددة الاستخدامات مع بعض الخليطات الخفيفة الوزن الإضافية.

يتم تشغيل sat بواسطة deepspeed-ZeRO وموازاة النموذج ، تهدف إلى توفير أفضل الممارسات لما قبل النماذج الكبيرة المسبقة والاستعادة (100 متر ~ 20B).

ثَبَّتَ

    pip install SwissArmyTransformer

سمات

أضف مكونات النماذج المنبثقة ، على سبيل المثال تبني البادئة ، في سطر واحد فقط!

يحسن صناديق البادئة (أو الضبط P) من خلال إضافة معلمات قابلة للتدريب في كل طبقة انتباه. لتطبيقه على نموذج تصنيف GLM (أو أي نموذج آخر) أمر سهل مع مكتبتنا.

    class ClassificationModel ( GLMModel ): # can also be BertModel, RobertaModel, etc. 
        def __init__ ( self , args , transformer = None , ** kwargs ):
            super (). __init__ ( args , transformer = transformer , ** kwargs )
            self . add_mixin ( 'classification_head' , MLPHeadMixin ( args . hidden_size , 2048 , 1 ))
            # Arm an arbitrary model with Prefix-tuning with this line!
            self . add_mixin ( 'prefix-tuning' , PrefixTuningMixin ( args . num_layers , args . hidden_size // args . num_attention_heads , args . num_attention_heads , args . prefix_len ))

تعمل GPT وغيرها من النماذج التلقائية التلقائية بشكل مختلف أثناء التدريب والاستدلال. أثناء الاستدلال ، يتم إنشاء النص من خلال الرمز المميز ونحن بحاجة إلى تخزين الحالات السابقة من أجل الكفاءة. من خلال LIB لدينا ، تحتاج فقط إلى التفكير في السلوك أثناء التدريب (يمنح المعلم) وتحويله إلى نموذج للاستعماء التلقائي مؤقتًا عن طريق إضافة مختلط:

    model , args = AutoModel . from_pretrained ( 'glm-10b-chinese' , args )
    model . add_mixin ( 'auto-regressive' , CachedAutoregressiveMixin ())
    # Generate a sequence with beam search
    from sat . generation . autoregressive_sampling import filling_sequence
    from sat . generation . sampling_strategies import BeamSearchStrategy
    output , * mems = filling_sequence ( model , input_seq ,
                    batch_size = args . batch_size ,
                    strategy = BeamSearchStrategy ( args . batch_size ))

قم ببناء نموذجك المستند إلى المحول مع الحد الأدنى من الرموز . لقد ذكرنا GLM ، الذي يختلف فقط عن المحول القياسي (يسمى basemodel) على التضمين الموقف (وخسائر التدريب). نحتاج فقط إلى التركيز على الجزء ذي الصلة عند الترميز.

تمديد التعريف كله:

 class BlockPositionEmbeddingMixin ( BaseMixin ):
    # Here define parameters for the mixin
    def __init__ ( self , max_sequence_length , hidden_size , init_method_std = 0.02 ):
        super ( BlockPositionEmbeddingMixin , self ). __init__ ()
        self . max_sequence_length = max_sequence_length
        self . hidden_size = hidden_size
        self . block_position_embeddings = torch . nn . Embedding ( max_sequence_length , hidden_size )
        torch . nn . init . normal_ ( self . block_position_embeddings . weight , mean = 0.0 , std = init_method_std )
    
    # Here define the method for the mixin
    def position_embedding_forward ( self , position_ids , ** kwargs ):
        position_ids , block_position_ids = position_ids [:, 0 ], position_ids [:, 1 ]
        position_embeddings = self . transformer . position_embeddings ( position_ids )
        block_position_embeddings = self . block_position_embeddings ( block_position_ids )
        return position_embeddings + block_position_embeddings

class GLMModel ( BaseModel ):
    def __init__ ( self , args , transformer = None ):
        super (). __init__ ( args , transformer = transformer )
        self . add_mixin ( 'block_position_embedding' , 
            BlockPositionEmbeddingMixin ( args . max_sequence_length , args . hidden_size )
        ) # Add the mixin for GLM

الدعم الشامل للتدريب . يهدف sat إلى توفير أفضل الممارسات للتدريب المسبق والتحديد ، حيث تحتاج فقط إلى الانتهاء من forward_step و create_dataset_function ولكن مع وجود فرطميات لتغيير تكوينات التدريب المفيدة.
- قم بتوسيع التدريب إلى وحدات معالجة الرسومات أو العقد المتعددة عن طريق تحديد --num_nodes ، --num_gpus و hostfile بسيطة.
- السرعة العميقة والنموذج التوازي.
- تكامل أفضل من Zero-2 وتنشيط checkpointing.
- بيانات التدريب التلقائي والخلط و memmap .
- دعم بنجاح تدريب Cogview2 و Cogvideo.
- قاعدة الكود المفتوحة المصدر الوحيدة التي تدعم T5-10B على وحدات معالجة الرسومات في وحدات معالجة الرسومات.

جولة سريعة

ملف Python الأكثر نموذجية لاستخدام Bert في SAT (للاستدلال) هو كما يلي:

 # @File: inference_bert.py
from sat import get_args , get_tokenizer , AutoModel
# Parse args, initialize the environment. This is necessary.
args = get_args () 
# Automatically download and load model. Will also dump model-related hyperparameters to args.
model , args = AutoModel . from_pretrained ( 'bert-base-uncased' , args ) 
# Get the BertTokenizer according to args.tokenizer_type (automatically set).
tokenizer = get_tokenizer ( args ) 
# Here to use bert as you want!
# ...

ثم يمكننا تشغيل الرمز عبر

    SAT_HOME=/path/to/download python inference_bert.py --mode inference

جميع أسماء النماذج المدعومة رسميًا في urls.py.

إلى FineTune أو PretRain المحول هو أيضا سهل للغاية!

 # @File: finetune_bert.py
from sat import get_args , get_tokenizer , AutoModel
from sat . model . mixins import MLPHeadMixin

def create_dataset_function ( path , args ):
    # Here to load the dataset
    # ...
    assert isinstance ( dataset , torch . utils . data . Dataset )
    return dataset

def forward_step ( data_iterator , model , args , timers ):
    inputs = next ( data_iterator ) # from the dataset of create_dataset_function.
    loss , * others = model ( inputs )
    return loss
    
# Parse args, initialize the environment. This is necessary.
args = get_args () 
model , args = AutoModel . from_pretrained ( 'bert-base-uncased' , args ) 
tokenizer = get_tokenizer ( args ) 
# Here to use bert as you want!
model . del_mixin ( 'bert-final' )
model . add_mixin ( 'classification_head' , MLPHeadMixin ( args . hidden_size , 2048 , 1 ))
# ONE LINE to train! 
# args already includes hyperparams such as lr, train-iters, zero-stage ...
training_main ( args , 
    model_cls = model , 
    forward_step_function = forward_step , # user define
    create_dataset_function = create_dataset_function # user define
)

ثم يمكننا تشغيل الرمز عبر

deepspeed --include localhost:0,1 finetune_bert.py 
    --experiment-name ftbert 
    --mode finetune --train-iters 1000 --save /path/to/save 
    --train-data /path/to/train --valid-data /path/to/valid 
    --lr 0.00002 --batch-size 8 --zero-stage 1 --fp16

هنا نستخدم البيانات المتوازية على GPUS 0،1. يمكننا أيضًا إطلاق التدريب على العديد من الآلات بين الاتصالات عبر- --hostfile /path/to/hostfile . انظر البرنامج التعليمي لمزيد من التفاصيل.

لكتابة النموذج الخاص بك ، تحتاج فقط إلى النظر في الفرق بين المحول القياسي. على سبيل المثال ، إذا كانت لديك فكرة لتحسين عملية الانتباه:

 from sat . model import BaseMixin
class MyAttention ( BaseMixin ):
    def __init__ ( self , hidden_size ):
        super ( MyAttention , self ). __init__ ()
        # MyAttention may needs some new params, e.g. a learnable alpha.
        self . learnable_alpha = torch . nn . Parameter ( torch . ones ( hidden_size ))
    
    # This is a hook function, the name `attention_fn` is special.
    def attention_fn ( q , k , v , mask , dropout = None , ** kwargs ):
        # Code for my attention.
        # ...
        return attention_results

هنا هي وظيفة attention_fn ، تحل محل الإجراء الافتراضي حسب الوظيفة الجديدة. جميع الخطافات المتاحة موجودة في Transformer_Defaults.py. الآن يمكننا استخدام add_mixin لتطبيق تغييرنا على جميع المحولات ، مثل Bert و VIT و COGVIEW. انظر البرنامج التعليمي لمزيد من التفاصيل.

دروس

كيفية استخدام النماذج المسبقة التي تم جمعها في SAT؟
لماذا وكيف تدرب النماذج في السبت؟

اقتباس

حاليًا ليس لدينا ورقة ، لذلك لا تحتاج إلى الاستشهاد بنا رسميًا! ~

إذا كان هذا المشروع يساعد بحثك أو هندسيتك ، فاستخدم footnote{https://github.com/THUDM/SwissArmyTransformer} لذكرنا والتوصية بنقل SwissArmyTransformer للآخرين.

البرنامج التعليمي للمساهمة SAT في الطريق!

يعتمد المشروع على (مستخدم) Deepspeed و Megatron-LM ومحولات Huggingface. شكرا لعملهم الرائع.

يوسع

معلومات إضافية