CTranslate2 download - CTranslate2 Quellcode Download

CTranslate2

C/C++

CTranslate2 4.5.0

Herunterladen

Ctranslate2

Ctranslate2 ist eine C ++ - und eine Python -Bibliothek für effiziente Inferenz mit Transformatormodellen.

Das Projekt implementiert eine benutzerdefinierte Laufzeit, die viele Leistungsoptimierungstechniken wie die Quantisierung der Gewichte, die Schichtfusion, die Batch -Neuordnung usw. anwendet, um die Speicherverwendung von Transformatormodellen auf CPU und GPU zu beschleunigen und zu verringern.

Derzeit werden die folgenden Modelltypen unterstützt:

Encoder-Decoder-Modelle: Transformator Base/Big, M2M-100, NllB, Bart, Mbart, Pegasus, T5, Whisper
Modelle nur für Decoder: GPT-2, GPT-J, GPT-NEOX, OPT, Bloom, Mpt, Llama, Mistral, Gemma, Codegen, GPTBigCode, Falcon, Qwen2
Nur-Encoder-Modelle: Bert, Distilbert, XLM-Roberta

Kompatible Modelle sollten zunächst in ein optimiertes Modellformat umgewandelt werden. Die Bibliothek enthält Konverter für mehrere Frameworks:

OpenNMT-PY
OpenNMT-TF
Fairseq
Marian
Opus-mt
Transformatoren

Das Projekt ist produktionsorientiert und verfügt über die Abwärtskompatibilitätsgarantien. Es umfasst jedoch auch experimentelle Merkmale im Zusammenhang mit Modellkomprimierung und Inferenzbeschleunigung.

Schlüsselmerkmale

Schnelle und effiziente Ausführung auf CPU und GPU
Die Ausführung ist erheblich schneller und erfordert weniger Ressourcen als allgemeine Deep-Learning-Frameworks für unterstützte Modelle und Aufgaben dank vieler fortschrittlicher Optimierungen: Schichtfusion, Padding-Entfernung, Batch-Neuordnung, In-Place-Operationen, Caching-Mechanismus usw.
Quantisierung und reduzierte Präzision
Die Modellserialisierung und Berechnung unterstützen Gewichte mit reduzierter Genauigkeit: 16-Bit-Schwimmpunkte (FP16), 16-Bit-Gehirnfloatpunkte (BF16), 16-Bit-Ganzzahlen (int16), 8-Bit-Ganzzahlen (int8) und AWQ-Quantisierung (INT4).
Mehrere CPU -Architekturen unterstützen
Das Projekt unterstützt X86-64 und AARG64/ARM64-Prozessoren und integriert mehrere Backends, die für diese Plattformen optimiert sind: Intel MKL, OneDnn, Openblas, Ruy und Apple Accelerate.
Automatische CPU -Erkennung und -code -Versand
Ein Binärer kann mehrere Backends (z. B. Intel MKL und OneDNN) und Anleitungs -Set -Architekturen (z. B. AVX, AVX2) umfassen, die zur Laufzeit automatisch ausgewählt werden, basierend auf den CPU -Informationen.
Parallele und asynchrone Ausführung
Mehrere Chargen können parallel und asynchron unter Verwendung mehrerer GPU- oder CPU -Kerne verarbeitet werden.
Dynamische Speicherverwendung
Die Speicherverwendung ändert sich dynamisch von der Anfragegröße dynamisch und erfüllt gleichzeitig die Leistungsanforderungen dank Caching Allocators sowohl auf der CPU als auch bei der GPU.
Leicht auf der Festplatte
Quantisierung kann die Modelle auf der Festplatte mit minimalem Genauigkeitsverlust viermal kleiner machen.
Einfache Integration
Das Projekt hat nur wenige Abhängigkeiten und enthält einfache APIs in Python und C ++, um die meisten Integrationsanforderungen zu decken.
Konfigurierbare und interaktive Decodierung
Fortgeschrittene Dekodierungsfunktionen ermöglichen die automatische Vervollständigung einer Teilsequenz und die Rückgabe von Alternativen an einem bestimmten Ort in der Sequenz.
Unterstützung der Tensor -Parallelität für verteilte Inferenz unterstützen
Sehr großes Modell kann in mehrere GPUs aufgeteilt werden. Befolgen Sie diese Dokumentation, um die erforderliche Umgebung einzurichten.

Einige dieser Merkmale sind mit Standard -Deep -Learning -Frameworks schwer zu erreichen und die Motivation für dieses Projekt.

Installation und Verwendung

Ctranslate2 kann mit PIP installiert werden:

pip install ctranslate2

Das Python -Modul wird zum Konvertieren von Modellen verwendet und kann Text mit wenigen Codezeilen übersetzen oder generieren:

 translator = ctranslate2 . Translator ( translation_model_path )
translator . translate_batch ( tokens )

generator = ctranslate2 . Generator ( generation_model_path )
generator . generate_batch ( start_tokens )

Weitere Informationen und Beispiele finden Sie in der Dokumentation.

Benchmarks

Wir übersetzen den En-> de Test Set Newstest2014 mit mehreren Modellen:

OpenNMT-TF WMT14: Ein Basistransformator mit OpenNMT-TF auf dem WMT14-Datensatz (4,5m-Zeilen)
OpenNMT-PY WMT14: Ein Basistransformator, der mit OpenNMT-PY auf dem WMT14-Datensatz trainiert wurde (4,5m-Zeilen)
OPUS-MT: Ein mit Marian ausgebildeter Basistransformator für alle OPUS-Daten, die am 2020-02-26 verfügbar sind (81,9 m Leitungen)

Der Benchmark berichtet über die Anzahl der pro Sekunde generierten Zieltoken (höher ist besser). Die Ergebnisse werden über mehrere Läufe aggregiert. Weitere Informationen finden Sie in den Benchmark -Skripten und reproduzieren Sie diese Zahlen.

Bitte beachten Sie, dass die nachstehenden Ergebnisse nur für die Konfiguration gültig sind, die während dieses Benchmarks verwendet werden: Die absolute und relative Leistung kann sich mit unterschiedlichen Einstellungen ändern.

CPU

	Token pro Sekunde	Max. Erinnerung	Bleu
OpenNMT-TF WMT14-Modell
OpenNMT-TF 2.31.0 (mit TensorFlow 2.11.0)	209.2	2653 MB	26.93
OpenNMT-PY WMT14-Modell
OpenNMT-PY 3.0.4 (mit Pytorch 1.13.1)	275.8	2012mb	26.77
- int8	323.3	1359 MB	26.72
Ctranslate2 3.6.0	658.8	849MB	26.77
- int16	733.0	672 MB	26.82
- int8	860.2	529 MB	26.78
- int8 + vmap	1126.2	598MB	26.64
Opus-MT-Modell
Transformatoren 4.26.1 (mit Pytorch 1.13.1)	147,3	2332MB	27.90
Marian 1.11.0	344.5	7605 MB	27.93
- int16	330.2	5901MB	27.65
- int8	355.8	4763MB	27.27
Ctranslate2 3.6.0	525.0	721MB	27.92
- int16	596.1	660 MB	27.53
- int8	696.1	516 MB	27.65

Ausgeführt mit 4 Threads auf einem C5.2Xlarge Amazon EC2 -Instanz mit einer Intel (R) Xeon (R) Platinum 8275Cl CPU.

GPU

	Token pro Sekunde	Max. GPU -Speicher	Max. CPU -Speicher	Bleu
OpenNMT-TF WMT14-Modell
OpenNMT-TF 2.31.0 (mit TensorFlow 2.11.0)	1483.5	3031MB	3122MB	26.94
OpenNMT-PY WMT14-Modell
OpenNMT-PY 3.0.4 (mit Pytorch 1.13.1)	1795.2	2973MB	3099mb	26.77
FasterTransformer 5.3	6979.0	2402MB	1131MB	26.77
- Float16	8592.5	1360 MB	1135 MB	26.80
Ctranslate2 3.6.0	6634.7	1261MB	953 MB	26.77
- int8	8567.2	1005 MB	807MB	26.85
- Float16	10990.7	941MB	807MB	26.77
- int8 + float16	8725.4	813MB	800 MB	26.83
Opus-MT-Modell
Transformatoren 4.26.1 (mit Pytorch 1.13.1)	1022.9	4097MB	2109 MB	27.90
Marian 1.11.0	3241.0	3381mb	2156 MB	27.92
- Float16	3962.4	3239MB	1976MB	27.94
Ctranslate2 3.6.0	5876.4	1197MB	754MB	27.92
- int8	7521.9	1005 MB	792 MB	27.79
- Float16	9296.7	909 MB	814MB	27.90
- int8 + float16	8362.7	813MB	766 MB	27.90