CTranslate2 Download - CTranslate2 Source Code Download

CTranslate2

ج/ج++

CTranslate2 4.5.0

تنزيل

ctranslate2

Ctranslate2 هي مكتبة C ++ و Python لاستدلال فعال مع نماذج المحولات.

يقوم المشروع بتنفيذ وقت تشغيل مخصص يطبق العديد من تقنيات تحسين الأداء مثل تقدير الأوزان ، والانصهار الطبقات ، وإعادة ترتيب الدُفعات ، وما إلى ذلك ، لتسريع استخدام ذاكرة نماذج المحولات على وحدة المعالجة المركزية و GPU وتقليلها.

أنواع النماذج التالية مدعومة حاليًا:

نماذج التشفير-ترميز: قاعدة المحولات/الكبيرة ، M2M-100 ، NLLB ، BART ، MBART ، PEGASUS ، T5 ، Whisper
نماذج فك التشفير فقط: GPT-2 ، GPT-J ، GPT-NEOX ، OPT ، Bloom ، MPT ، LLAMA ، MISTRAL ، GEMMA ، CODEGEN ، GPTBIGCODE ، FALCON ، QWEN2
نماذج التشفير فقط: Bert ، Distilbert ، XLM-Roberta

يجب تحويل النماذج المتوافقة أولاً إلى تنسيق نموذج محسن. تتضمن المكتبة محولات لأطر متعددة:

OpenNMT-PY
OpenNMT-TF
فيرسيك
ماريان
opus-mt
محولات

المشروع موجه نحو الإنتاج ويأتي مع ضمانات التوافق المتخلف ، ولكنه يتضمن أيضًا ميزات تجريبية تتعلق بضغط النماذج وتسريع الاستدلال.

الميزات الرئيسية

تنفيذ سريع وفعال على وحدة المعالجة المركزية ووحدة معالجة الرسومات
يكون التنفيذ أسرع بكثير ويتطلب موارد أقل من أطر التعلم العميق للأغراض العامة على النماذج والمهام المدعومة بفضل العديد من التحسينات المتقدمة: اندماج الطبقة ، وإزالة الحشوة ، وإعادة ترتيب الدُفعات ، وعمليات المكان ، وآلية التخزين المؤقت ، وما إلى ذلك.
الكمي وخفض الدقة
يدعم النموذج التسلسلي وحساب الأوزان ذات الدقة المنخفضة: نقاط عائمة 16 بت (FP16) ، ونقاط عائمة الدماغ 16 بت (BF16) ، و 16 بت أعداد صحيحة (INT16) ، والمناسبات المناسبية 8 بت (int8) والكمية AWQ (INT4).
تدعم بنيات وحدة المعالجة المركزية المتعددة
يدعم المشروع معالجات X86-64 و AARCH64/ARM64 ويدمج العديد من الخلفية التي تم تحسينها لهذه المنصات: Intel MKL ، Onednn ، OpenBlas ، Ruy ، Apple Accelerate.
اكتشاف وحدة المعالجة المركزية التلقائي وإرسال الكود
يمكن أن يتضمن واحد ثنائيًا عدة مباريات خلفية (مثل Intel MKL و ONEDNN) ومن مجموعة التعليمات (EG AVX ، AVX2) التي يتم تحديدها تلقائيًا في وقت التشغيل بناءً على معلومات وحدة المعالجة المركزية.
التنفيذ الموازي وغير المتزامن
يمكن معالجة دفعات متعددة بشكل متوازي وغير متزامن باستخدام وحدة معالجة الرسومات أو وحدة المعالجة المركزية المتعددة.
استخدام الذاكرة الديناميكية
يتغير استخدام الذاكرة ديناميكيًا وفقًا لحجم الطلب مع استمرار تلبية متطلبات الأداء بفضل تخزين المؤقتة للتخزين المؤقت على كل من وحدة المعالجة المركزية و GPU.
خفيفة الوزن على القرص
يمكن أن يجعل القياس الكمي النماذج أصغر 4 مرات على القرص مع الحد الأدنى من فقدان الدقة.
تكامل بسيط
يحتوي المشروع على عدد قليل من التبعيات ويعرض واجهات برمجة التطبيقات البسيطة في Python و C ++ لتغطية معظم احتياجات التكامل.
فك التشفير القابل للتكوين والتفاعلية
تتيح ميزات فك التشفير المتقدمة الإكمال التلقائي لتسلسل جزئي وإرجاع البدائل في موقع معين في التسلسل.
دعم التوازي الموحد للاستدلال الموزع
يمكن تقسيم نموذج كبير جدًا إلى وحدات معالجة الرسومات المتعددة. بعد هذه الوثائق لإعداد البيئة المطلوبة.

من الصعب تحقيق بعض هذه الميزات من خلال أطر التعلم العميق القياسية وهي الدافع لهذا المشروع.

التثبيت والاستخدام

يمكن تثبيت ctranslate2 مع PIP:

pip install ctranslate2

يتم استخدام وحدة Python لتحويل النماذج ويمكن ترجمة أو إنشاء نص مع أسطر قليلة من التعليمات البرمجية:

 translator = ctranslate2 . Translator ( translation_model_path )
translator . translate_batch ( tokens )

generator = ctranslate2 . Generator ( generation_model_path )
generator . generate_batch ( start_tokens )

راجع الوثائق لمزيد من المعلومات والأمثلة.

المعايير

نقوم بترجمة مجموعة en-> de newstest2014 مع نماذج متعددة:

OpenNMT-TF WMT14: محول أساسي مدرب مع OpenNMT-TF على مجموعة بيانات WMT14 (خطوط 4.5 م)
OpenNMT-PY WMT14: محول أساسي مدرب مع OpenNMT-PY على مجموعة بيانات WMT14 (خطوط 4.5 م)
OPUS-MT: محول أساسي مدرب مع ماريان على جميع بيانات OPUS المتاحة في 2020-02-26 (81.9 مليون سطر)

تقارير القياس عن عدد الرموز المستهدفة التي تم إنشاؤها في الثانية (أعلى أفضل). يتم تجميع النتائج على عدة أشواط. راجع البرامج النصية القياسية لمزيد من التفاصيل وإعادة إنتاج هذه الأرقام.

يرجى ملاحظة أن النتائج الواردة أدناه صالحة فقط للتكوين المستخدم خلال هذا المعيار: قد يتغير الأداء المطلق والنسبي بإعدادات مختلفة.

وحدة المعالجة المركزية

	الرموز في الثانية	الأعلى. ذاكرة	بلو
OpenNMT-TF WMT14 نموذج
OpenNMT-TF 2.31.0 (مع TensorFlow 2.11.0)	209.2	2653 ميجابايت	26.93
OpenNMT-PY نموذج WMT14
OpenNMT-PY 3.0.4 (مع Pytorch 1.13.1)	275.8	2012 ميغابايت	26.77
- int8	323.3	1359 ميجابايت	26.72
Ctranslate2 3.6.0	658.8	849 ميجابايت	26.77
- INT16	733.0	672 ميجابايت	26.82
- int8	860.2	529 ميجابايت	26.78
- int8 + vmap	1126.2	598 ميجابايت	26.64
نموذج OPUS-MT
Transformers 4.26.1 (مع Pytorch 1.13.1)	147.3	2332 ميجابايت	27.90
ماريان 1.11.0	344.5	7605MB	27.93
- INT16	330.2	5901MB	27.65
- int8	355.8	4763 ميجابايت	27.27
Ctranslate2 3.6.0	525.0	721 ميغابايت	27.92
- INT16	596.1	660 ميجابايت	27.53
- int8	696.1	516 ميجابايت	27.65

تم تنفيذها مع 4 مؤشرات ترابط على مثيل C5.2xlarge Amazon EC2 مجهز مع وحدة المعالجة المركزية Intel (R) Xeon (R) Platinum 8275Cl.

GPU

	الرموز في الثانية	الأعلى. ذاكرة GPU	الأعلى. ذاكرة وحدة المعالجة المركزية	بلو
OpenNMT-TF WMT14 نموذج
OpenNMT-TF 2.31.0 (مع TensorFlow 2.11.0)	1483.5	3031 ميغابايت	3122 ميجابايت	26.94
OpenNMT-PY نموذج WMT14
OpenNMT-PY 3.0.4 (مع Pytorch 1.13.1)	1795.2	2973 ميجابايت	3099MB	26.77
FasterTransformer 5.3	6979.0	2402 ميجابايت	1131 ميغابايت	26.77
- Float16	8592.5	1360 ميجابايت	1135 ميجابايت	26.80
Ctranslate2 3.6.0	6634.7	1261 ميغابايت	953 ميجابايت	26.77
- int8	8567.2	1005 ميجابايت	807 ميغابايت	26.85
- Float16	10990.7	941 ميغابايت	807 ميغابايت	26.77
- int8 + float16	8725.4	813 ميجابايت	800 ميجابايت	26.83
نموذج OPUS-MT
Transformers 4.26.1 (مع Pytorch 1.13.1)	1022.9	4097MB	2109MB	27.90
ماريان 1.11.0	3241.0	3381 ميغابايت	2156 ميجابايت	27.92
- Float16	3962.4	3239 ميجابايت	1976 ميغابايت	27.94
Ctranslate2 3.6.0	5876.4	1197 ميجابايت	754 ميجابايت	27.92
- int8	7521.9	1005 ميجابايت	792 ميجابايت	27.79
- Float16	9296.7	909MB	814 ميغابايت	27.90
- int8 + float16	8362.7	813 ميجابايت	766 ميجابايت	27.90