tf transformers Download - tf transformers Download Code Download

tf transformers

كود الذكاء الاصطناعي

1.0.0

تنزيل

TensorFlow Transformers

الموقع الإلكتروني: https://legacyai.github.io/tf-transformers

TF Transformers: محول أسرع وأسهل على أحدث طراز في TensorFlow 2.0

تخيل أن يكون جيل الانحدار التلقائي 90x أسرع. تم تصميم TF Transformers (TensorFlow Transformers) لتسخير القوة الكاملة لـ TensorFlow 2 ، المصممة خصيصًا للهندسة المعمارية القائمة على المحولات.

يمكن تطبيق هذه النماذج على:

النص ، لمهام مثل تصنيف النص ، استخراج المعلومات ، الإجابة على الأسئلة ، تلخيص ، ترجمة ، توليد النص ، بأكثر من 100 لغة.
الصور ، للمهام مثل تصنيف الصور ، واكتشاف الكائنات ، والتجزئة.
الصوت ، لمهام مثل التعرف على الكلام وتصنيف الصوت. (قريباً)

ميزات فريدة

أسرع فك التشفير التلقائي
دعم tflite
إنشاء tfrecords بسيط .
الضخم التلقائي TF.DATA.DATASET أو TF.RAGGED
كل شيء هو القاموس (المدخلات والمخرجات)
أوضاع قناع متعددة مثل البادئة السببية ، المعرفة من قبل المستخدم .
TensorFlow-Text Tokenizer دعم
يدعم GPU ، TPU ، مدرب متعدد GPU مع WANDB ، عمليات الاسترداد المتعددة ، التكرار التلقائي

معيار لتوليد النص GPT2

توليد نص GPT2 مع max_length=64 ، num_beams=3 .

 tf_transformers : 31 minutes
huggingface_tf  : 83 minutes
huggingface_pt  : 36 minutes
huggingface_jax : 35 minutes

من 83 minutes إلى 31 minutes هو تسريع كبير. 92 % تسريع. في المتوسط ، يبلغ معدل التحويلات TF 80-90 ٪ من تطبيق TensorFlow Huggingface ، وفي معظم الحالات يكون قابلاً للمقارنة أو أسرع من Pytorch .

يمكن العثور على المزيد من المعايير في المقاييس

تثبيت

مع PIP

يتم اختبار هذا المستودع على Python 3.7+ و TensorFlow 2.7.

الموصى بها مسبقات

pip install sentencepiece
pip install tensorflow-text > = 2.7.3
pip install tqdm

تثبيت tensorflow >= 2.7.0 [CPU or GPU] وفقًا لجهازك. يجب عليك تثبيت محولات TF في بيئة افتراضية. إذا لم تكن على دراية بالبيئات الظاهرية Python ، تحقق من دليل المستخدم.

أولاً ، قم بإنشاء بيئة افتراضية مع إصدار Python الذي ستستخدمه وتنشيطه.

بعد ذلك ، ستحتاج إلى تثبيت واحد على الأقل من TensorFlow. يرجى الرجوع إلى صفحة تثبيت TensorFlow ، صفحات التثبيت المتعلقة بأمر التثبيت المحدد لمنصة النظام الأساسي الخاص بك. نوصي بشدة بتثبيت [TensorFlow-Text] (https://www.tensorflow.org/text).

عند تثبيت أحد هذه الصياغة الخلفية ، يمكن تثبيت محولات TF باستخدام PIP على النحو التالي:

pip install tf-transformers

من المصدر

git clone https://github.com/legacyai/tf-transformers.git
pip install poetry
cd tf-transformers
poetry install

جولة سريعة

TF TRANDSFORDS API بسيط للغاية وأحد الحد الأدنى.

 > >> from tf_transformers . models import GPT2Model
> >> model = GPT2Model . from_pretrained ( 'gpt2' )
> >> model . save_checkpoint ( "/tmp/gpt2_model/" ) # Save Model

بالنسبة لعملية النص ، من المهم جدًا إضافة: OBJ: use_auto_regressive=True . هذا مطلوب لجميع النماذج.

 > >> from tf_transformers . models import GPT2Model
> >> model = GPT2Model . from_pretrained ( 'gpt2' , use_auto_regressive = True )

لتسلسل حفظ وتحميل نموذج

 > >> from tf_transformers . models import GPT2Model
> >> model = GPT2Model . from_pretrained ( 'gpt2' )
> >> model . save_transformers_serialized ( "/tmp/gpt2_serialized/" )

# To load a serialized models for inference in prodcution:

> >> import tensorflow as tf
> >> loaded = tf . saved_model . load ( "/tmp/gpt2_serialized/" )
> >> model  = loaded . signatures [ 'serving_default' ]

مدخلات النموذج والمخرجات

في TF Transforts ، اتبعنا في الغالب Functional API من Keras. جميع النماذج في tf-transformers متصلة ولديها دائمًا وظائف التالية.

مدخلات النموذج

إذا tf.keras.Model أو tf_transformers.core.LegacyModel ، استخدم: print(model.input) .

إذا كان tf.keras.Layer أو tf_transformers.core.LegacyLayer ، استخدم: print(model.model_inputs) .

مخرجات النموذج

إذا tf.keras.Model أو tf_transformers.core.LegacyModel ، استخدم: print(model.output) .

إذا كان tf.keras.Layer أو tf_transformers.core.LegacyLayer ، استخدم: print(model.model_outputs) .

دروس

لقد قمنا بتغطية البرامج التعليمية التي تغطي التدريب المسبق ، والتعاون ، والصفوف ، و QA ، و ner أكثر من ذلك بكثير.

قراءة واكتب tfrecords باستخدام TFT
تصنيف النص باستخدام ألبرت
MLM الديناميكي (على المعالجة المسبقة على الذبابة باستخدام TF-Text) في TPU
تصنيف الصور VIT Multi GPU عكس
جملة تضمين قطار من نقطة الصفر باستخدام Quoara على Roberta + Zeroshot STS-B
الهندسة السريعة باستخدام مقطع
إجابة سؤال كجيل - فرقة V1 باستخدام GPT2
رمز ترجمة الكود (CodexGlue - Java to C#) باستخدام T5

استخدام النموذج

توليد النص باستخدام GPT2
توليد النص باستخدام T5
محولات الجملة

دروس Tflite

ألبرت tflite
بيرت tflite
روبرتا Tflite

لماذا يجب أن أستخدم محولات TF؟

استخدم النماذج الحديثة في الإنتاج ، مع أقل من 10 أسطر من التعليمات البرمجية.
- نماذج عالية الأداء ، أفضل من جميع النماذج الرسمية القائمة على TensorFlow
- فصول بسيطة جدا لجميع مهام المصب
- اكتمال دعم Tflite لجميع المهام.
اجعل الخبرة القائمة على الصناعة للطلاب والمجتمع مع برامج تعليمية واضحة
قم بتدريب أي نموذج على GPU ، Multi-GPU ، TPU مع tf.keras.Model.fit المذهل
- تدريب النماذج الحديثة في أسطر قليلة من التعليمات البرمجية.
- جميع النماذج قابلة للتسلسل تماما.
تخصيص أي نماذج أو خطوط أنابيب مع تغيير كود أقل أو معدوم.

بحث

يحتوي قسم الأبحاث على رموز لتدريب نماذج مختلفة مسبقًا تتراوح من ** MLM ، T5 ، مقطع ، إلخ **. تم تصميم كل هذه البرامج النصية لتسخير القوة الكاملة لخط أنابيب TensorFlow-IO واختبارها على TPU V2 و TPU V3. من المتوقع أن تكون الأخطاء في تلك ، ولكنها بمثابة غرض لبدء أو تعديل ما قمنا به بالفعل.

مساهمات

مفصل ألبرت (أصغر وأفضل نموذج يعتمد على المحولات على الإطلاق) على الغراء .

لقد أجرينا بعض التجارب للضغط على قوة نماذج قاعدة ألبرت (ينطبق المفهوم على أي نماذج وفي محولات TF ، إنه خارج الصندوق.)

تتمثل الفكرة في تقليل الخسارة للمهمة المحددة في كل طبقة من طرازك وتحقق من التنبؤات في كل طبقة. وفقًا لتجاربنا ، نحن قادرون على الحصول على أفضل نموذج أصغر (بفضل ألبرت ) ، ومن الطبقة 4 فصاعداً ، نتغلب على جميع النموذج الأصغر في معيار الغراء . بواسطة Layer 6 ، حصلنا على درجة الغراء 81.0 ، والتي تبعد 4 نقاط عن Distillbert مع درجة الغراء 77 و Mobilebert Glue النتيجة 78 .

يحتوي طراز Albert على 14 مليون معلمة ، وباستخدام الطبقة 6 ، تمكنا من تسريع التأسيس بنسبة 50 ٪.

ينطبق المفهوم على جميع النماذج والمهام.

الرموز + اقرأ المزيد

محول تسلسل كتلة طويلة

من خلال تقسيم تسلسل الإدخال إلى انتباه كتلة ودمج باستخدام طبقة FFN ، أظهرنا أنه ، ستكون الآلات الأصغر قادرة على إجراء معالجة التسلسل حتى 4096 رمزًا في جهاز GPU V100 واحد. يتفوق هذا النموذج على Pegasus Base (128 million) في تلخيص PubMed على الرغم من كونه 60 million معلمة.

الرموز + اقرأ المزيد

نماذج مدعومة

يوفر TF Transformers حاليًا البنى التالية.

ألبرت (من Google Research ومعهد Toyota Technology Institute في شيكاغو) تم إصداره مع Paper Albert: A Lite Bert للتعلم الخاضع للإشراف على تمثيلات اللغة ، بقلم Zhenzhong Lan ، Mingda Chen ، Sebastian Goodman ، Kevin Gimpel ، Piyush Sharma ، Radu Soricut.
تم إصدار Bert (من Google) مع Paper Bert: قبل التدريب من محولات ثنائية الاتجاه العميقة لفهم اللغة من قبل جاكوب ديفلين ، مينغ وي تشانغ ، كنتون لي وكريستينا توتانوفا.
Bert for Sequence Generation (من Google) تم إصداره مع نقاط التفتيش الورقية التي تم تدريبها مسبقًا لمهام توليد التسلسل بواسطة Sascha Rothe ، Shashi Narayan ، Aliaksei Severyn.
تم إصدار Electra (من جامعة Google Research/Stanford) مع Paper Electra: ترميز النصوص قبل التدريب على أنها تمييزات بدلاً من المولدات من قبل Kevin Clark ، Minh-Thang Luong ، Quoc V. Le ، Christopher D. Manning.
GPT-2 (من Openai) التي تم إصدارها مع نماذج اللغة الورقية هي متعلمين غير خاضعين للإشراف من قبل Alec Radford*و Jeffrey Wu*و Rewon Child و David Luan و Dario Amodei ** و Ilya Sutskever **.
MT5 (من Google AI) تم إصداره باستخدام Paper MT5: محول نص إلى نص متعدد اللغات على النص من خلال ربط Xue و Noah Constant و Adam Roberts و Mihir Kale و Rami Al-Rfou و Aditya Siddhant و Aditya Barua و Colin Raffel.
Roberta (من Facebook) ، الذي تم إصداره مع الورقة ، وهو نهج Bert Pretring Pretring من تأليف Yinhan Liu ، Myle Ott ، Naman Goyal ، Jingfei Du ، Mandar Joshi ، Danqi Chen ، Omer Levy ، Mike Lewis ، Luke Zettlemoyer ، Veselin Stoyanov.
تم إصدار T5 (من Google AI) مع الورقة التي تستكشف حدود التعلم النقل من خلال محول نص إلى نص موحد لكولن رافيل ونوم شازير وآدم روبرتس وكاثرين لي وشاران نارانج ومايكل ماتينا ويانكي تشو ووي لي وبيتر ج. ليو.
محول الرؤية (VIT) (من Google AI) التي تم إصدارها مع الورقة ، تبلغ قيمة الصورة 16 × 16: محولات للتعرف على الصور على نطاق واسع من قِبل أليكسي دوسوفيتسكي ، لوكاس باير ، ألكساندر كولسنيكوف ، ديرك فايسنبورن ، شياوهوا تشاي ، توماس أونترثينر ، ميثان ديه. أوزيكوريت ، نيل هولسبي. 10 مقطع (من Openai) تم إصداره مع نماذج مرئية قابلة للتحويل الورقية من الإشراف على اللغة الطبيعية من قبل أليك رادفورد ، جونج ووك كيم ، كريس هالاسي ، أديتيا راميش ، غابرييل غوه ، سانديهيني أغاروال ، جيريش ساستير ، أماندا أسكيل ، باميلا ميشكين ، جاك كلارك ، غريتشن كورجيجر ، إيلا سوتسكير.