Descargar CTranslate2 - Descargar el código fuente de CTranslate2

CTranslate2

C/C++

CTranslate2 4.5.0

Descargar

Ctranslate2

Ctranslate2 es una biblioteca C ++ y Python para una inferencia eficiente con los modelos de transformadores.

El proyecto implementa un tiempo de ejecución personalizado que aplica muchas técnicas de optimización de rendimiento, como cuantización de pesas, fusión de capas, reordenamiento por lotes, etc., para acelerar y reducir el uso de la memoria de los modelos de transformadores en CPU y GPU.

Los siguientes tipos de modelo son compatibles actualmente:

Modelos de codificador del codificador: base de transformador/Big, M2M-100, NLLB, Bart, Mbart, Pegasus, T5, Whisper
Modelos de decodificador: GPT-2, GPT-J, GPT-NEOX, OPT, Bloom, MPT, Llama, Mistral, Gemma, Codegen, GPTBigCode, Falcon, Qwen2
Modelos solo de codificadores: Bert, Distilbert, XLM-Roberta

Los modelos compatibles deben convertirse primero en un formato de modelo optimizado. La biblioteca incluye convertidores para múltiples marcos:

OpenNMT-PY
OpenNMT-TF
Fairseq
Mariano
Opus-mt
Transformadores

El proyecto está orientado a la producción y viene con garantías de compatibilidad hacia atrás, pero también incluye características experimentales relacionadas con la compresión del modelo y la aceleración de inferencia.

Características clave

Ejecución rápida y eficiente en CPU y GPU
La ejecución es significativamente más rápida y requiere menos recursos que los marcos de aprendizaje profundo de uso general en modelos y tareas compatibles gracias a muchas optimizaciones avanzadas: fusión de capa, eliminación de rellenos, reordenamiento por lotes, operaciones en el lugar, mecanismo de almacenamiento en caché, etc.
Cuantización y precisión reducida
La serialización y el cálculo del modelo admiten pesos con precisión reducida: puntos flotantes de 16 bits (FP16), puntos flotantes cerebrales de 16 bits (BF16), enteros de 16 bits (INT16), enteros de 8 bits (INT8) y cuantificación AWQ (INT4).
Soporte de arquitecturas de CPU múltiples
El proyecto admite procesadores X86-64 y Aarch64/ARM64 e integra múltiples backends optimizados para estas plataformas: Intel MKL, ONEDNN, Openblas, Ruy y Apple aceleran.
Detección automática de CPU y despacho de código
Un binario puede incluir múltiples backends (por ejemplo, Intel MKL y ONEDNN) y arquitecturas de conjunto de instrucciones (por ejemplo, AVX, AVX2) que se seleccionan automáticamente en tiempo de ejecución en función de la información de la CPU.
Ejecución paralela y asincrónica
Se pueden procesar múltiples lotes en paralelo y asincrónico utilizando múltiples GPU o núcleos de CPU.
Uso de memoria dinámica
El uso de la memoria cambia dinámicamente dependiendo del tamaño de la solicitud mientras cumple con los requisitos de rendimiento gracias a los asignadores de almacenamiento en caché tanto en CPU como en GPU.
Ligero en el disco
La cuantización puede hacer que los modelos 4 veces sean más pequeños en el disco con una pérdida de precisión mínima.
Integración simple
El proyecto tiene pocas dependencias y expone API simples en Python y C ++ para cubrir la mayoría de las necesidades de integración.
Decodificación configurable e interactiva
Las características de decodificación avanzadas permiten el autocompletación de una secuencia parcial y alternativas de regreso en una ubicación específica en la secuencia.
Apoyar el paralelismo del tensor para la inferencia distribuida
El modelo muy grande se puede dividir en GPU múltiples. Siguiendo esta documentación para configurar el entorno requerido.

Algunas de estas características son difíciles de lograr con los marcos de aprendizaje profundo estándar y son la motivación para este proyecto.

Instalación y uso

Ctranslate2 se puede instalar con PIP:

pip install ctranslate2

El módulo Python se usa para convertir modelos y puede traducir o generar texto con pocas líneas de código:

 translator = ctranslate2 . Translator ( translation_model_path )
translator . translate_batch ( tokens )

generator = ctranslate2 . Generator ( generation_model_path )
generator . generate_batch ( start_tokens )

Consulte la documentación para obtener más información y ejemplos.

Puntos de referencia

Traducimos el conjunto de pruebas en-> DE NewStest2014 con múltiples modelos:

OpenNMT-TF WMT14: un transformador base entrenado con OpenNMT-TF en el conjunto de datos WMT14 (líneas de 4.5m)
OpenNMT-PY WMT14: un transformador base entrenado con OpenNMT-PY en el conjunto de datos WMT14 (líneas de 4.5m)
Opus-MT: un transformador base entrenado con Marian en todos los datos de Opus disponibles en 2020-02-26 (líneas de 81.9m)

El punto de referencia informa el número de tokens objetivo generados por segundo (más alto es mejor). Los resultados se agregan en múltiples ejecuciones. Vea los scripts de referencia para obtener más detalles y reproducir estos números.

Tenga en cuenta que los resultados presentados a continuación solo son válidos para la configuración utilizada durante este punto de referencia: el rendimiento absoluto y relativo puede cambiar con diferentes configuraciones.

UPC

	Tokens por segundo	Max. memoria	Bleu
Modelo OpenNMT-TF WMT14
OpenNMT-TF 2.31.0 (con TensorFlow 2.11.0)	209.2	2653Mb	26.93
Modelo OpenNMT-PY WMT14
OpenNMT-PY 3.0.4 (con Pytorch 1.13.1)	275.8	2012MB	26.77
- int8	323.3	1359MB	26.72
Ctranslate2 3.6.0	658.8	849mb	26.77
- int16	733.0	672 MB	26.82
- int8	860.2	529mb	26.78
- int8 + vmap	1126.2	598mb	26.64
Modelo Opus-MT
Transformers 4.26.1 (con Pytorch 1.13.1)	147.3	2332MB	27.90
Marian 1.11.0	344.5	7605mb	27.93
- int16	330.2	5901mb	27.65
- int8	355.8	4763mb	27.27
Ctranslate2 3.6.0	525.0	721MB	27.92
- int16	596.1	660MB	27.53
- int8	696.1	516 MB	27.65

Ejecutado con 4 hilos en una instancia C5.2xLarge Amazon EC2 equipada con una CPU Intel (R) Xeon (R) Platinum 8275cl.

GPU

	Tokens por segundo	Max. Memoria de GPU	Max. Memoria de la CPU	Bleu
Modelo OpenNMT-TF WMT14
OpenNMT-TF 2.31.0 (con TensorFlow 2.11.0)	1483.5	3031MB	3122mb	26.94
Modelo OpenNMT-PY WMT14
OpenNMT-PY 3.0.4 (con Pytorch 1.13.1)	1795.2	2973mb	3099mb	26.77
FastasterTransformer 5.3	6979.0	2402MB	1131MB	26.77
- flotante16	8592.5	1360MB	1135MB	26.80
Ctranslate2 3.6.0	6634.7	1261MB	953 MB	26.77
- int8	8567.2	1005Mb	807MB	26.85
- flotante16	10990.7	941MB	807MB	26.77
- int8 + float16	8725.4	813MB	800MB	26.83
Modelo Opus-MT
Transformers 4.26.1 (con Pytorch 1.13.1)	1022.9	4097mb	2109MB	27.90
Marian 1.11.0	3241.0	3381MB	2156 MB	27.92
- flotante16	3962.4	3239MB	1976MB	27.94
Ctranslate2 3.6.0	5876.4	1197MB	754mb	27.92
- int8	7521.9	1005Mb	792mb	27.79
- flotante16	9296.7	909MB	814 MB	27.90
- int8 + float16	8362.7	813MB	766 MB	27.90