Unduh CTranslate2 - Unduh Kode Sumber CTranslate2

CTranslate2

C/C++

CTranslate2 4.5.0

Unduh

Ctranslate2

Ctranslate2 adalah perpustakaan C ++ dan Python untuk inferensi yang efisien dengan model transformator.

Proyek ini mengimplementasikan runtime khusus yang menerapkan banyak teknik optimasi kinerja seperti kuantisasi bobot, fusi lapisan, pemesanan ulang batch, dll., Untuk mempercepat dan mengurangi penggunaan memori model transformator pada CPU dan GPU.

Jenis model berikut saat ini didukung:

Model Encoder-Decoder: Transformer Base/Big, M2M-100, NLLB, Bart, MBart, Pegasus, T5, Whisper
Model Decoder saja: GPT-2, GPT-J, GPT-NEOX, Opt, Bloom, MPT, Llama, Mistral, Gemma, Codegen, GPTBigCode, Falcon, Qwen2
Model khusus encoder: Bert, Distilbert, XLM-Roberta

Model yang kompatibel harus dikonversi terlebih dahulu menjadi format model yang dioptimalkan. Perpustakaan mencakup konverter untuk beberapa kerangka kerja:

Opennmt-py
Opennmt-tf
Fairseq
Marian
Opus-Mt
Transformer

Proyek ini berorientasi pada produksi dan dilengkapi dengan jaminan kompatibilitas ke belakang, tetapi juga mencakup fitur eksperimental yang terkait dengan kompresi model dan akselerasi inferensi.

Fitur utama

Eksekusi cepat dan efisien pada CPU dan GPU
Eksekusi secara signifikan lebih cepat dan membutuhkan lebih sedikit sumber daya daripada kerangka kerja pembelajaran mendalam dengan tujuan umum pada model dan tugas yang didukung berkat banyak optimisasi canggih: fusi lapisan, penghapusan bantalan, pemesanan ulang batch, operasi di tempat, mekanisme caching, dll.
Kuantisasi dan pengurangan presisi
Serialisasi model dan komputasi mendukung bobot dengan presisi yang berkurang: titik mengambang 16-bit (FP16), titik mengambang otak 16-bit (BF16), bilangan bulat 16-bit (int16), bilangan bulat 8-bit (int8) dan kuantisasi AWQ (INT4).
Dukungan beberapa arsitektur CPU
Proyek ini mendukung prosesor x86-64 dan AARCH64/ARM64 dan mengintegrasikan beberapa backend yang dioptimalkan untuk platform ini: Intel MKL, Onednn, OpenBlas, Ruy, dan Apple mempercepat.
Deteksi CPU Otomatis dan Pengiriman Kode
Satu biner dapat mencakup beberapa backends (misalnya Intel MKL dan Onednn) dan arsitektur set instruksi (misalnya AVX, AVX2) yang secara otomatis dipilih saat runtime berdasarkan informasi CPU.
Eksekusi paralel dan asinkron
Beberapa batch dapat diproses secara paralel dan secara asinkron menggunakan beberapa inti GPU atau CPU.
Penggunaan memori dinamis
Penggunaan memori berubah secara dinamis tergantung pada ukuran permintaan sambil tetap memenuhi persyaratan kinerja berkat alokasi caching pada CPU dan GPU.
Ringan di disk
Kuantisasi dapat membuat model 4 kali lebih kecil pada disk dengan kehilangan akurasi minimal.
Integrasi sederhana
Proyek ini memiliki sedikit ketergantungan dan memaparkan API sederhana di Python dan C ++ untuk memenuhi sebagian besar kebutuhan integrasi.
Decoding yang dapat dikonfigurasi dan interaktif
Fitur decoding canggih memungkinkan autocompeting urutan parsial dan kembali alternatif di lokasi tertentu dalam urutan.
Mendukung paralelisme tensor untuk inferensi terdistribusi
Model yang sangat besar dapat dibagi menjadi beberapa GPU. Mengikuti dokumentasi ini untuk mengatur lingkungan yang diperlukan.

Beberapa fitur ini sulit dicapai dengan kerangka kerja pembelajaran mendalam standar dan merupakan motivasi untuk proyek ini.

Instalasi dan penggunaan

Ctranslate2 dapat dipasang dengan PIP:

pip install ctranslate2

Modul Python digunakan untuk mengonversi model dan dapat menerjemahkan atau menghasilkan teks dengan beberapa baris kode:

 translator = ctranslate2 . Translator ( translation_model_path )
translator . translate_batch ( tokens )

generator = ctranslate2 . Generator ( generation_model_path )
generator . generate_batch ( start_tokens )

Lihat dokumentasi untuk informasi dan contoh lebih lanjut.

Tolok ukur

Kami menerjemahkan En-> De Test Set NewStest2014 dengan beberapa model:

OpenNMT-TF WMT14: Transformator dasar yang dilatih dengan OpenNMT-TF pada dataset WMT14 (baris 4.5m)
OpenNMT-PY WMT14: Transformator dasar yang dilatih dengan OpenNmt-Py pada dataset WMT14 (baris 4.5m)
Opus-MT: Transformator dasar yang dilatih dengan Marian pada semua data Opus yang tersedia di 2020-02-26 (81,9m baris)

Benchmark melaporkan jumlah token target yang dihasilkan per detik (lebih tinggi lebih baik). Hasilnya dikumpulkan selama beberapa kali berjalan. Lihat skrip benchmark untuk detail lebih lanjut dan mereproduksi angka -angka ini.

Harap dicatat bahwa hasil yang disajikan di bawah ini hanya berlaku untuk konfigurasi yang digunakan selama tolok ukur ini: kinerja absolut dan relatif dapat berubah dengan pengaturan yang berbeda.

CPU

	Token per detik	Max. ingatan	Bleu
Model OpenNMT-TF WMT14
OpenNMT-TF 2.31.0 (dengan TensorFlow 2.11.0)	209.2	2653MB	26.93
Model OpenNMT-PY WMT14
OpenNMT-PY 3.0.4 (dengan Pytorch 1.13.1)	275.8	2012MB	26.77
- int8	323.3	1359MB	26.72
Ctranslate2 3.6.0	658.8	849MB	26.77
- int16	733.0	672MB	26.82
- int8	860.2	529MB	26.78
- int8 + vmap	1126.2	598MB	26.64
Model Opus-MT
Transformers 4.26.1 (dengan Pytorch 1.13.1)	147.3	2332MB	27.90
Marian 1.11.0	344.5	7605MB	27.93
- int16	330.2	5901MB	27.65
- int8	355.8	4763MB	27.27
Ctranslate2 3.6.0	525.0	721MB	27.92
- int16	596.1	660MB	27.53
- int8	696.1	516MB	27.65

Dieksekusi dengan 4 utas pada instance C5.2Xlarge Amazon EC2 yang dilengkapi dengan CPU Intel (R) Xeon (R) Platinum 8275Cl.

GPU

	Token per detik	Max. Memori GPU	Max. Memori CPU	Bleu
Model OpenNMT-TF WMT14
OpenNMT-TF 2.31.0 (dengan TensorFlow 2.11.0)	1483.5	3031MB	3122MB	26.94
Model OpenNMT-PY WMT14
OpenNMT-PY 3.0.4 (dengan Pytorch 1.13.1)	1795.2	2973MB	3099MB	26.77
FasterTransformer 5.3	6979.0	2402MB	1131MB	26.77
- float16	8592.5	1360MB	1135MB	26.80
Ctranslate2 3.6.0	6634.7	1261MB	953MB	26.77
- int8	8567.2	1005MB	807MB	26.85
- float16	10990.7	941MB	807MB	26.77
- int8 + float16	8725.4	813MB	800MB	26.83
Model Opus-MT
Transformers 4.26.1 (dengan Pytorch 1.13.1)	1022.9	4097MB	2109MB	27.90
Marian 1.11.0	3241.0	3381MB	2156MB	27.92
- float16	3962.4	3239MB	1976MB	27.94
Ctranslate2 3.6.0	5876.4	1197MB	754MB	27.92
- int8	7521.9	1005MB	792MB	27.79
- float16	9296.7	909MB	814MB	27.90
- int8 + float16	8362.7	813MB	766MB	27.90