Download von TurboTransformers - TurboTransformers Quellcode Download

TurboTransformers

Anderer Quellcode

v0.5.1

Herunterladen

Turbotransformers: Eine schnelle und benutzerfreundliche Laufzeit für Transformer-Inferenz bei CPU und GPU

Logo

Lassen Sie Transformers schnell servieren, indem Sie Ihren Inferenzmotor einen Turbo hinzufügen!

Die WeChat AI Open-Sourcing-Turbotransformatoren mit den folgenden Eigenschaften.

Unterstützung sowohl Transformatoren -Encoder als auch Decoder.
Unterstützt variable Längeneingänge. Es ist keine zeitaufwändige Offline-Abstimmung erforderlich. Sie können die Chargengröße und die Sequenzlänge zu Echtzeit ändern.
Ausgezeichnete CPU / GPU -Leistung.
Perfekte Benutzerfreundlichkeit. Turbotransformer unterstützt Python- und C ++ - APIs.
Smart Charge. Minimieren Sie den Overhead von Null-Padding für eine Reihe von Anforderungen unterschiedlicher Längen. Es kann als Plugin für Pytorch verwendet werden. Die End-to-End-Beschleunigung erfolgt durch Hinzufügen einiger Zeilen Python-Code.

Turbotransformers wurden auf mehrere Online -Bert -Service -Szenarien in Tencent angewendet. Zum Beispiel bringt es 1,88x Beschleunigung in den WeChat -FAQ -Dienst, die Beschleunigung von 2.11x in den öffentlichen Cloud Sentiment Analysis Service und die 13,6 -fache Beschleunigung des QQ -Empfehlungssystems. Darüber hinaus wurde es bereits angewendet, um Dienste wie das Schleifen, die Suche und die Empfehlung zu erstellen.

Die folgende Tabelle ist ein Vergleich von Turbotransformatoren und verwandten Arbeiten.

Verwandte Werke	Leistung	Brauchen Vorverarbeitung	Variable Länge	Verwendung
Pytorch JIT (CPU)	Schnell	Ja	NEIN	Hart
Tensorrt (GPU)	Schnell	Ja	NEIN	Hart
TF-Faste-Transformers (GPU)	Schnell	Ja	NEIN	Hart
Onnx-Runtime (CPU/GPU)	Schnell/schnell	NEIN	Ja	Medium
Tensorflow-1.x (CPU/GPU)	Langsam/mittel	Ja	NEIN	Einfach
Pytorch (CPU/GPU)	Mittel/mittel	NEIN	Ja	Einfach
Turbo-Transformatoren (CPU/GPU)	Am schnellsten/schnellsten	NEIN	Ja	Einfach

Unterstützte Modelle

Wir unterstützen derzeit die folgenden Transformatormodelle.

Bert [Python] [C ++]
Albert [Python]
Roberta [Python]
Transformator Decoder [Python]
GPT2 [Python]

Steigern Sie Bert Inferenz in 2 Zeilen Python -Code

 import torch
import transformers
import turbo_transformers

if __name__ == "__main__" :
    turbo_transformers . set_num_threads ( 4 )
    torch . set_num_threads ( 4 )
    model_id = "bert-base-uncased"
    model = transformers . BertModel . from_pretrained ( model_id )
    model . eval ()
    cfg = model . config

    input_ids = torch . tensor (
        ([ 12166 , 10699 , 16752 , 4454 ], [ 5342 , 16471 , 817 , 16022 ]),
        dtype = torch . long )
    position_ids = torch . tensor (([ 1 , 0 , 0 , 0 ], [ 1 , 1 , 1 , 0 ]), dtype = torch . long )
    segment_ids = torch . tensor (([ 1 , 1 , 1 , 0 ], [ 1 , 0 , 0 , 0 ]), dtype = torch . long )
    torch . set_grad_enabled ( False )
    torch_res = model (
        input_ids , position_ids = position_ids , token_type_ids = segment_ids
    )  # sequence_output, pooled_output, (hidden_states), (attentions)
    torch_seqence_output = torch_res [ 0 ][:, 0 , :]
    tt_model = turbo_transformers . BertModel . from_torch ( model )
    res = tt_model (
        input_ids , position_ids = position_ids ,
        token_type_ids = segment_ids )  # pooled_output, sequence_output
    tt_seqence_output = res [ 0 ]

Installation

Beachten Sie, dass die Gebäudeskripte nur für bestimmte OS und Software (Pytorch, OpenNMT, Transformers usw.) gelten. Bitte passen Sie sie an Ihre Bedürfnisse an.

CPU

 git clone https://github.com/Tencent/TurboTransformers --recursive

Erstellen Sie Docker -Bilder und -Container auf Ihrer Maschine.

 sh tools/build_docker_cpu.sh
# optional: If you want to compare the performance of onnxrt-mkldnn during benchmark, you need to set BUILD_TYPE=dev to compile onnxruntime into the docker image, as follows
env BUILD_TYPE=dev sh tools/build_docker_cpu.sh
docker run -it --rm --name=turbort -v $PWD:/workspace your_image_name /bin/bash

Installieren Sie Turbo in Docker

Methode 1: Ich möchte Unitesterest

 cd /workspace
sh tools/build_and_run_unittests.sh $PWD -DWITH_GPU=OFF
# you can switch between Openblas and MKL by modifying this line in CMakeList.txt
# set(BLAS_PROVIDER "mkl" CACHE STRING "Set the blas provider library, in [openblas, mkl, blis]")

Methode 2: Ich möchte nicht einst

 cd /workspace
mkdir -p build && cd build
cmake .. -DWITH_GPU=OFF
make -j 4
pip install `find . -name *whl`

Rennen Sie Benchmark (optional) in Docker, vergleichen Sie mit Pytorch, Torch-Jit, Onnxruntime

 cd benchmark
bash run_benchmark.sh

Installieren Sie Conda -Pakete in Docker (optional)

 sh tool/build_conda_package.sh
# The conda package will be in /workspace/dist/*.tar.bz2
# When using turbo_transformers in other environments outside this container: conda install your_root_path/dist/*.tar.bz2

Wir haben auch ein Docker-Image vorbereitet, das die CPU-Version von Turbotransformern sowie andere verwandte Arbeiten, dh Onnxrt v1.2.0 und Pytorch-Jit auf DockerHub, enthält

 docker pull thufeifeibear/turbo_transformers_cpu:latest

GPU

 git clone https://github.com/Tencent/TurboTransformers --recursive

Erstellen Sie Docker -Bilder und -Container auf Ihrer Maschine.

 # You can modify the environment variables in the script to specify the cuda version and operating system version
sh tools/build_docker_gpu.sh $PWD
nvidia-docker run --gpus all --net=host --rm -it -v $PWD:/workspace -v /etc/passwd:/etc/passwd --name=your_container_name REPOSITORY:TAG
# for example: nvidia-docker run --gpus all --net=host --rm -it -v $PWD:/workspace -v /etc/passwd:/etc/passwd --name=turbo_gpu_env thufeifeibear:0.1.1-cuda9.0-ubuntu16.04-gpu-dev

Installieren Sie das PIP -Paket im Docker- und Unitest -Test

 cd /workspace
sh tools/build_and_run_unittests.sh $PWD -DWITH_GPU=ON

Benchmark (optional) im Docker -Container ausführen, vergleichen Sie mit Pytorch

 cd benchmark
bash gpu_run_benchmark.sh

Wir haben auch ein Docker -Image vorbereitet, das eine GPU -Version von Turbotransformern enthält.

 docker pull thufeifeibear/turbo_transformers_gpu:latest

Mit Tensor Core (FP16)

Der Tensor -Kern kann das Computing an der GPU beschleunigen. Es ist standardmäßig in Turbotransformatoren deaktiviert. Wenn Sie es einschalten möchten, stellen Sie vor dem Kompilieren der Code die Option mit_Module_Benchmakr in cmakelists.txt fest

 option(WITH_TENSOR_CORE     "Use Tensor core to accelerate"     ON)

Verwendung

Turbotransformer liefert C ++ / Python -API -Schnittstellen. Wir hoffen, unser Bestes zu geben, um uns an eine Vielzahl von Online -Umgebungen anzupassen, um die Schwierigkeit der Entwicklung für Benutzer zu verringern.

Vorbereitete Modellbelastung

Der erste Schritt bei der Verwendung von Turbo besteht darin, ein vorgebildetes Modell zu laden. Wir bieten eine Möglichkeit, Pytorch- und Tensorflow-Vor-ausgebildete Modelle in Huggingface/Transformers zu laden. Die spezifische Konvertierungsmethode besteht darin, das entsprechende Skript in ./Tools zu verwenden, um das vorgebildete Modell in eine NPZ-Formatdatei umzuwandeln, und Turbo verwendet die C ++-oder die Python-Schnittstelle, um das NPZ-Formatmodell zu laden. Insbesondere sind wir der Ansicht, dass die meisten vorgeborenen Modelle im Pytorch-Format und mit Python verwendet werden. Wir bieten eine Abkürzung für das direkte Anrufen in Python für das Pytorch -Speichermodell.

vorbereitet

Apis

Python Apis

Siehe Beispiele für unterstützte Modelle in ./example/python. Turbonlp/Translate-Demo zeigt eine Demo der Anwendung von Turbotransformator in der Übersetzungsaufgabe. Da der Benutzer der Bert-Beschleunigung immer einen angepassten Nachbearbeitungsprozess für die Aufgabe benötigt, geben wir ein Beispiel für das Schreiben einer Sequenzklassifizierungsanwendung.

C ++ APIs

Ein Beispiel finden Sie in ./example/cpp. Unser Beispiel liefert die GPU und zwei CPU-Multi-Thread-Aufrufmethoden. Eine davon ist, eine Bert -Inferenz mit mehreren Threads durchzuführen. Der andere ist, mehrere Bert -Inferenz zu machen, von denen jede mit einem Thread verwendet wird. Benutzer können Turbo-Transformatoren über add_subdirectory mit Ihrem Code verknüpfen.

Smart Batching (minimieren Sie das Null-Padding-Overhead bei der Charge)

Normalerweise ist das Fütterung einer Charge von Anforderungen unterschiedlicher Längen in ein Bert-Modell für Inferenz, damit alle Anforderungen die gleiche Länge haben. Wenn Sie beispielsweise Anforderungen Liste der Längen servieren (100, 10, 50), benötigen Sie eine Vorverarbeitungsstufe, um sie als Längen (100, 100, 100) zu padeln. Auf diese Weise werden 90% und 50% der letzten beiden Sequenzberechnung verschwendet. Wie in einem effektiven Transformator angegeben, ist es nicht erforderlich, die Eingangsprüfungen zu padeln. Alternative müssen Sie nur die Batch-GEMM-Operationen in mehrköpfigen Aufmerksamkeiten padeln, die auf eine kleine Anregung der gesamten Bert-Berechnung entsprechen. Daher werden die meisten GEMM-Operationen ohne Nullpadding verarbeitet. Turbo bietet ein Modell als BertModelSmartBatch , einschließlich einer intelligenten Batching -Technik. Das Beispiel wird in ./example/python/bert_smart_pad.py dargestellt.

Wie man neue Modelle beisteuert

Woher kennt ich Hotspots Ihres Code?

Wie füge ich eine neue Ebene hinzu?

Todo

Derzeit (Juni 2020) werden wir in naher Zukunft Unterstützung für Modelle mit niedriger Präzision (CPU INT8, GPU FP16) hinzufügen. Ich freue mich auf Ihren Beitrag!

Lizenz

BSD 3-Klausel-Lizenz

Bekannte Probleme

Die Ergebnisse von Turbo -Transformatoren können sich von den Ergebnissen von Pytorch nach 2 Ziffern hinter dem Dezimalpunkt unterscheiden. Der Diff stammt hauptsächlich aus der Bert -Ausgangsschicht. Wir verwenden einen ungefähren Gelu -Algorithmus, der sich von Pytorch unterscheiden kann.
Turbo und Pytorch teilen die gleiche MKL. MKL von Pytorch 1.5.0 kann in Turbo verlangsamen. Gründe müssen bestimmt werden. Laden Sie die Pytorch -Version auf 1.1.0 herunter.
OnnxRuntime-CPU == 1.4.0 und OnnxRuntime-gpu == 1.3.0 können nicht gleichzeitig funktionieren.

Geschichte

Januar 2021 V0.6.0, Turbotransformers unterstützt Smart Batching.
Juli 2020 V0.4.0, Turbotransformatoren, die als CPU -Backend als CPU -Backend verwendet werden, unterstützt GPT2. Und eine quantisierte Bert.
Juli 2020 V0.3.1, Turbotransformers fügte Unterstützung für Albert, Roberta auf CPU/GPU hinzu.
Juni 2020 V0.3.0, Turbotransformers fügten Unterstützung für den Transformator -Decoder auf CPU/GPU hinzu.
Juni 2020 V0.2.1, Turbotransformers fügten Blis als BLAS -Anbieteroption hinzu. Bessere Leistung bei AMD CPU.
April 2020 V0.0.1, Turbotransformers veröffentlicht und erreichten die Bert-Inferenzgeschwindigkeit der Bert auf CPU/GPU.

Zitieren uns

Zitieren Sie dieses Papier, wenn Sie Turbotransformatoren in Ihrer Forschungsveröffentlichung verwenden.

 @inproceedings{fang2021turbotransformers,
  title={TurboTransformers: an efficient GPU serving system for transformer models},
  author={Fang, Jiarui and Yu, Yang and Zhao, Chengduo and Zhou, Jie},
  booktitle={Proceedings of the 26th ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming},
  pages={389--402},
  year={2021}
}

Die Artefakte des Papiers finden Sie am Zweig ppopp21_artifact_centos .

Kontaktieren Sie uns

Obwohl wir empfehlen, Ihr Problem mit GitHub -Problemen zu veröffentlichen, können Sie auch in unserer Turbo -Benutzergruppe teilnehmen.

Scannen Sie diesen QR -Code und fügen Sie unseren Schütz als Ihren Wechat -Freund hinzu.
QQ -Gruppe, Name: Turbotransformers, Nummer: 1109315167.

Expandieren

Zusätzliche Informationen

Version v0.5.1
Typ Anderer Quellcode
Aktualisierungszeit 2025-04-17
Größe 2.97MB
Kommt von Github

Ähnliche Anwendungen

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

TurboTransformers

Turbotransformers: Eine schnelle und benutzerfreundliche Laufzeit für Transformer-Inferenz bei CPU und GPU

Unterstützte Modelle

Steigern Sie Bert Inferenz in 2 Zeilen Python -Code

Installation

CPU

GPU

Mit Tensor Core (FP16)

Verwendung

Vorbereitete Modellbelastung

Apis

Python Apis

C ++ APIs

Smart Batching (minimieren Sie das Null-Padding-Overhead bei der Charge)

Wie man neue Modelle beisteuert

Todo

Lizenz

Bekannte Probleme

Geschichte

Zitieren uns

Kontaktieren Sie uns

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express