TurboTransformers Download - TurboTransformers Sumber Code Download

TurboTransformers

Kode sumber lainnya

v0.5.1

Unduh

Turbotransformers: Runtime yang cepat dan ramah pengguna untuk inferensi transformator pada CPU dan GPU

logo

Buat transformator melayani dengan cepat dengan menambahkan turbo ke mesin inferensi Anda!

Turbotransformer bersumber terbuka WeChat AI dengan karakteristik berikut.

Mendukung Encoder dan Decoder Transformers.
Mendukung input panjang variabel. Tidak diperlukan penyetelan offline yang memakan waktu. Anda dapat mengubah ukuran batch dan panjang urutan secara real-time.
Kinerja CPU / GPU yang sangat baik.
Usibilitas yang sempurna. Turbotransformers mendukung API Python dan C ++.
Batching pintar. Minimalkan overhead nol-padding untuk sejumlah permintaan panjang yang berbeda. Ini dapat digunakan sebagai plugin untuk Pytorch. Akselerasi ujung ke ujung diperoleh dengan menambahkan beberapa baris kode Python.

Turbotransformers telah diterapkan pada beberapa skenario layanan BerT online di Tencent. Misalnya, ini membawa akselerasi 1,88x ke layanan FAQ WeChat, percepatan 2.11x ke layanan analisis sentimen cloud publik, dan akselerasi 13,6x ke sistem rekomendasi QQ. Selain itu, telah diterapkan untuk membangun layanan seperti mengejek, mencari, dan rekomendasi.

Tabel berikut adalah perbandingan turbotransformers dan pekerjaan terkait.

Karya terkait	Pertunjukan	Butuh preprocess	Panjang variabel	Penggunaan
Pytorch Jit (CPU)	Cepat	Ya	TIDAK	Keras
Tensorrt (GPU)	Cepat	Ya	TIDAK	Keras
TF-Faster Transformers (GPU)	Cepat	Ya	TIDAK	Keras
Onnx-Runtime (CPU/GPU)	Cepat/cepat	TIDAK	Ya	Sedang
TensorFlow-1.x (CPU/GPU)	Lambat/sedang	Ya	TIDAK	Mudah
Pytorch (CPU/GPU)	Medium/Medium	TIDAK	Ya	Mudah
Turbo-Transformers (CPU/GPU)	Tercepat/tercepat	TIDAK	Ya	Mudah

Model yang didukung

Kami saat ini mendukung model transformator berikut.

Bert [Python] [C ++]
Albert [Python]
Roberta [Python]
Decoder Transformer [Python]
GPT2 [Python]

Boost Bert Inference dalam 2 baris kode Python

 import torch
import transformers
import turbo_transformers

if __name__ == "__main__" :
    turbo_transformers . set_num_threads ( 4 )
    torch . set_num_threads ( 4 )
    model_id = "bert-base-uncased"
    model = transformers . BertModel . from_pretrained ( model_id )
    model . eval ()
    cfg = model . config

    input_ids = torch . tensor (
        ([ 12166 , 10699 , 16752 , 4454 ], [ 5342 , 16471 , 817 , 16022 ]),
        dtype = torch . long )
    position_ids = torch . tensor (([ 1 , 0 , 0 , 0 ], [ 1 , 1 , 1 , 0 ]), dtype = torch . long )
    segment_ids = torch . tensor (([ 1 , 1 , 1 , 0 ], [ 1 , 0 , 0 , 0 ]), dtype = torch . long )
    torch . set_grad_enabled ( False )
    torch_res = model (
        input_ids , position_ids = position_ids , token_type_ids = segment_ids
    )  # sequence_output, pooled_output, (hidden_states), (attentions)
    torch_seqence_output = torch_res [ 0 ][:, 0 , :]
    tt_model = turbo_transformers . BertModel . from_torch ( model )
    res = tt_model (
        input_ids , position_ids = position_ids ,
        token_type_ids = segment_ids )  # pooled_output, sequence_output
    tt_seqence_output = res [ 0 ]

Instalasi

Perhatikan bahwa skrip bangunan hanya berlaku untuk OS dan perangkat lunak tertentu (Pytorch, OpenNMT, Transformers, dll.) Versi. Harap sesuaikan sesuai kebutuhan Anda.

CPU

 git clone https://github.com/Tencent/TurboTransformers --recursive

Bangun gambar dan wadah Docker di mesin Anda.

 sh tools/build_docker_cpu.sh
# optional: If you want to compare the performance of onnxrt-mkldnn during benchmark, you need to set BUILD_TYPE=dev to compile onnxruntime into the docker image, as follows
env BUILD_TYPE=dev sh tools/build_docker_cpu.sh
docker run -it --rm --name=turbort -v $PWD:/workspace your_image_name /bin/bash

Pasang Turbo di Docker

Metode 1: Saya ingin unitest

 cd /workspace
sh tools/build_and_run_unittests.sh $PWD -DWITH_GPU=OFF
# you can switch between Openblas and MKL by modifying this line in CMakeList.txt
# set(BLAS_PROVIDER "mkl" CACHE STRING "Set the blas provider library, in [openblas, mkl, blis]")

Metode 2: Saya tidak ingin unitest

 cd /workspace
mkdir -p build && cd build
cmake .. -DWITH_GPU=OFF
make -j 4
pip install `find . -name *whl`

Jalankan Benchmark (Opsional) Di Docker, bandingkan dengan Pytorch, Torch-Jit, Onnxruntime

 cd benchmark
bash run_benchmark.sh

Instal Paket Conda di Docker (Opsional)

 sh tool/build_conda_package.sh
# The conda package will be in /workspace/dist/*.tar.bz2
# When using turbo_transformers in other environments outside this container: conda install your_root_path/dist/*.tar.bz2

Kami juga menyiapkan gambar Docker yang berisi versi CPU dari Turbotransformers, serta karya terkait lainnya, yaitu Onnxrt v1.2.0 dan Pytorch-Jit di Dockerhub

 docker pull thufeifeibear/turbo_transformers_cpu:latest

GPU

 git clone https://github.com/Tencent/TurboTransformers --recursive

Bangun gambar dan wadah Docker di mesin Anda.

 # You can modify the environment variables in the script to specify the cuda version and operating system version
sh tools/build_docker_gpu.sh $PWD
nvidia-docker run --gpus all --net=host --rm -it -v $PWD:/workspace -v /etc/passwd:/etc/passwd --name=your_container_name REPOSITORY:TAG
# for example: nvidia-docker run --gpus all --net=host --rm -it -v $PWD:/workspace -v /etc/passwd:/etc/passwd --name=turbo_gpu_env thufeifeibear:0.1.1-cuda9.0-ubuntu16.04-gpu-dev

Instal Paket Pip di Docker dan Unitest Test

 cd /workspace
sh tools/build_and_run_unittests.sh $PWD -DWITH_GPU=ON

Jalankan Benchmark (Opsional) Di Docker Container, bandingkan dengan Pytorch

 cd benchmark
bash gpu_run_benchmark.sh

Kami juga menyiapkan gambar Docker yang berisi versi GPU dari Turbotransformers.

 docker pull thufeifeibear/turbo_transformers_gpu:latest

Menggunakan inti tensor (FP16)

Inti tensor dapat mempercepat komputasi pada GPU. Ini dinonaktifkan secara default di turbotransformers. Jika Anda ingin menyalakannya, sebelum menyusun kode, atur opsi dengan_module_benchmakr di cmakelists.txt

 option(WITH_TENSOR_CORE     "Use Tensor core to accelerate"     ON)

Penggunaan

Turbotransformers menyediakan antarmuka API C ++ / Python. Kami berharap dapat melakukan yang terbaik untuk beradaptasi dengan berbagai lingkungan online untuk mengurangi kesulitan pengembangan bagi pengguna.

Pemuatan model pretrained

Langkah pertama dalam menggunakan Turbo adalah memuat model pra-terlatih. Kami menyediakan cara untuk memuat model Pytorch dan TensorFlow pra-terlatih dalam permukaan pelukan/transformer. Metode konversi spesifik adalah dengan menggunakan skrip yang sesuai di ./tools untuk mengubah model pra-terlatih menjadi file format NPZ, dan Turbo menggunakan antarmuka C ++ atau Python untuk memuat model format NPZ. Secara khusus, kami menganggap bahwa sebagian besar model pra-terlatih berada dalam format Pytorch dan digunakan dengan Python. Kami menyediakan jalan pintas untuk menelepon langsung di Python untuk model yang disimpan Pytorch.

pretrained

Lebah

API Python

Lihat contoh model yang didukung di ./example/python. TurbonLP/Translate-Demo menunjukkan demo menerapkan turbotransformer dalam tugas terjemahan. Karena pengguna akselerasi Bert selalu membutuhkan proses pasca pemrosesan yang disesuaikan untuk tugas tersebut, kami memberikan contoh cara menulis aplikasi klasifikasi urutan.

API C ++

Lihat ./example/cpp sebagai contoh. Contoh kami memberikan GPU dan dua metode panggilan multi-thread CPU. Salah satunya adalah melakukan satu inferensi Bert menggunakan banyak utas; Yang lainnya adalah melakukan beberapa inferensi Bert, yang masing -masing menggunakan satu utas. Pengguna dapat menautkan turbo-transformer ke kode Anda melalui Add_subdirectory.

Smart Batching (meminimalkan overhead nol-padding dalam batching)

Biasanya, memberi makan sejumlah permintaan yang berbeda ke dalam model Bert untuk inferensi, nol-padding diperlukan untuk membuat semua permintaan memiliki panjang yang sama. Misalnya, menyajikan daftar panjang panjang (100, 10, 50), Anda memerlukan tahap preprocessing untuk membawanya sebagai panjang (100, 100, 100). Dengan cara ini, 90% dan 50% dari komputasi dua urutan terakhir terbuang sia -sia. Seperti yang ditunjukkan dalam transformator yang efektif, tidak perlu untuk menempatkan tensor input. Sebagai alternatif, Anda hanya perlu memasukkan operasi Batch-Gemm di dalam perhatian multi-berkepala, yang diperuntukkan bagi sejumlah kecil dari seluruh perhitungan Bert. Oleh karena itu sebagian besar operasi GEMM diproses tanpa nol-padding. Turbo memberikan model sebagai BertModelSmartBatch termasuk teknik batching pintar. Contohnya disajikan dalam ./example/python/bert_smart_pad.py.

Cara berkontribusi model baru

Bagaimana cara mengetahui hotspot kode Anda?

Bagaimana cara menambahkan lapisan baru?

Todo

Saat ini (Juni 2020), dalam waktu dekat, kami akan menambahkan dukungan untuk model presisi rendah (CPU INT8, GPU FP16). Melihat ke depan untuk kontribusi Anda!

Lisensi

Lisensi BSD 3 Clause

Masalah yang diketahui

Hasil transformator turbo mungkin berbeda dari hasil pytorch setelah 2 digit di belakang titik desimal. Diff terutama berasal dari lapisan output Bert. Kami menggunakan algoritma Gelu perkiraan, yang mungkin berbeda dari Pytorch.
Turbo dan Pytorch berbagi MKL yang sama. MKL dari Pytorch 1.5.0 dapat melambat di Turbo. Alasan perlu ditentukan. Unduh Versi Pytorch ke 1.1.0 akan meningkatkan kinerja Turbo.
onnxruntime-cpu == 1.4.0 dan onnxruntime-gpu == 1.3.0 tidak dapat bekerja secara bersamaan.

Sejarah

Janurary 2021 V0.6.0, Turbotransformers mendukung Smart Batching.
Juli 2020 V0.4.0, Turbotransformers menggunakan onnxruntime sebagai backend CPU, mendukung GPT2. Anded Bert terkuantisasi.
Juli 2020 V0.3.1, Turbotransformers menambahkan dukungan untuk Albert, Roberta di CPU/GPU.
Juni 2020 V0.3.0, Turbotransformers menambahkan dukungan untuk decoder transformator pada CPU/GPU.
Juni 2020 V0.2.1, Turbotransformers menambahkan Blis sebagai opsi penyedia BLAS. Kinerja yang lebih baik pada AMD CPU.
April 2020 V0.0.1, Turbotransformers dirilis, dan mencapai kecepatan inferensi Bert canggih pada CPU/GPU.

Mengutip kami

Kutip makalah ini, jika Anda menggunakan turbotransformers dalam publikasi penelitian Anda.

 @inproceedings{fang2021turbotransformers,
  title={TurboTransformers: an efficient GPU serving system for transformer models},
  author={Fang, Jiarui and Yu, Yang and Zhao, Chengduo and Zhou, Jie},
  booktitle={Proceedings of the 26th ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming},
  pages={389--402},
  year={2021}
}

Artefak kertas dapat ditemukan di cabang ppopp21_artifact_centos .