TurboTransformers 다운로드 - TurboTransformers 소스 코드 다운로드

TurboTransformers

기타 소스코드

v0.5.1

다운로드

Turbotransformers : CPU 및 GPU에서 변압기 추론을위한 빠르고 사용자 친화적 인 런타임

심벌 마크

추론 엔진에 터보를 추가하여 트랜스포머를 빠르게 제공하십시오!

Wechat AI 다음 특성을 가진 개방형 터보 트랜스 정보.

변압기 인코더 및 디코더를 모두지지합니다.
가변 길이 입력을 지원합니다. 시간이 많이 걸리는 오프라인 튜닝이 필요하지 않습니다. 배치 크기와 시퀀스 길이를 실시간으로 변경할 수 있습니다.
우수한 CPU / GPU 성능.
완벽한 유용성. Turbotransformers는 Python 및 C ++ API를 지원합니다.
스마트 배치. 다른 길이의 요청에 대한 제로 패딩 오버 헤드를 최소화하십시오. Pytorch의 플러그인으로 사용할 수 있습니다. 끝내 가속도는 몇 줄의 파이썬 코드를 추가하여 얻습니다.

터보 트랜스 정보는 Tencent의 여러 온라인 버트 서비스 시나리오에 적용되었습니다. 예를 들어, WeChat FAQ 서비스에 1.88 배의 가속도, Public Cloud Sentiment Analysis Service에 2.11 배의 가속도, QQ 권장 시스템에 13.6 배의 가속도를 제공합니다. 또한, 그것은 이미 징계, 검색 및 권장 사항과 같은 서비스를 구축하기 위해 적용되었습니다.

다음 표는 터보 트랜스 정보와 관련 작업을 비교 한 것입니다.

관련 작품	성능	전처리가 필요합니다	가변 길이	용법
Pytorch Jit (CPU)	빠른	예	아니요	딱딱한
Tensorrt (GPU)	빠른	예	아니요	딱딱한
TF 빠른 변압기 (GPU)	빠른	예	아니요	딱딱한
onnx-runtime (CPU/GPU)	빠른/빠른	아니요	예	중간
Tensorflow-1.x (CPU/GPU)	느린/중간	예	아니요	쉬운
Pytorch (CPU/GPU)	중간/매체	아니요	예	쉬운
터보 변환기 (CPU/GPU)	가장 빠른/빠른	아니요	예	쉬운

지원되는 모델

우리는 현재 다음 변압기 모델을 지원합니다.

버트 [Python] [C ++]
앨버트 [파이썬]
로베르타 [파이썬]
변압기 디코더 [파이썬]
GPT2 [파이썬]

2 줄의 파이썬 코드에서 BERT 추론을 부스트하십시오

 import torch
import transformers
import turbo_transformers

if __name__ == "__main__" :
    turbo_transformers . set_num_threads ( 4 )
    torch . set_num_threads ( 4 )
    model_id = "bert-base-uncased"
    model = transformers . BertModel . from_pretrained ( model_id )
    model . eval ()
    cfg = model . config

    input_ids = torch . tensor (
        ([ 12166 , 10699 , 16752 , 4454 ], [ 5342 , 16471 , 817 , 16022 ]),
        dtype = torch . long )
    position_ids = torch . tensor (([ 1 , 0 , 0 , 0 ], [ 1 , 1 , 1 , 0 ]), dtype = torch . long )
    segment_ids = torch . tensor (([ 1 , 1 , 1 , 0 ], [ 1 , 0 , 0 , 0 ]), dtype = torch . long )
    torch . set_grad_enabled ( False )
    torch_res = model (
        input_ids , position_ids = position_ids , token_type_ids = segment_ids
    )  # sequence_output, pooled_output, (hidden_states), (attentions)
    torch_seqence_output = torch_res [ 0 ][:, 0 , :]
    tt_model = turbo_transformers . BertModel . from_torch ( model )
    res = tt_model (
        input_ids , position_ids = position_ids ,
        token_type_ids = segment_ids )  # pooled_output, sequence_output
    tt_seqence_output = res [ 0 ]

설치

건물 스크립트는 특정 OS 및 소프트웨어 (Pytorch, OpenNMT, Transformers 등) 버전에만 적용됩니다. 필요에 따라 조정하십시오.

CPU

 git clone https://github.com/Tencent/TurboTransformers --recursive

기계에 Docker 이미지와 컨테이너를 구축하십시오.

 sh tools/build_docker_cpu.sh
# optional: If you want to compare the performance of onnxrt-mkldnn during benchmark, you need to set BUILD_TYPE=dev to compile onnxruntime into the docker image, as follows
env BUILD_TYPE=dev sh tools/build_docker_cpu.sh
docker run -it --rm --name=turbort -v $PWD:/workspace your_image_name /bin/bash

Docker에 터보를 설치하십시오

방법 1 : 단일 제사를 원합니다

 cd /workspace
sh tools/build_and_run_unittests.sh $PWD -DWITH_GPU=OFF
# you can switch between Openblas and MKL by modifying this line in CMakeList.txt
# set(BLAS_PROVIDER "mkl" CACHE STRING "Set the blas provider library, in [openblas, mkl, blis]")

방법 2 : 나는 Unitest를 원하지 않습니다

 cd /workspace
mkdir -p build && cd build
cmake .. -DWITH_GPU=OFF
make -j 4
pip install `find . -name *whl`

Docker에서 벤치 마크 실행 (선택 사항), Pytorch, Torch-jit, Onnxruntime과 비교

 cd benchmark
bash run_benchmark.sh

Docker에 콘다 패키지 설치 (선택 사항)

 sh tool/build_conda_package.sh
# The conda package will be in /workspace/dist/*.tar.bz2
# When using turbo_transformers in other environments outside this container: conda install your_root_path/dist/*.tar.bz2

또한 Turbotransformers의 CPU 버전과 다른 관련 작품 (예 : Onnxrt v1.2.0 및 pytorch-jit on dockerhub)이 포함 된 Docker 이미지를 준비했습니다.

 docker pull thufeifeibear/turbo_transformers_cpu:latest

GPU

 git clone https://github.com/Tencent/TurboTransformers --recursive

기계에 Docker 이미지와 컨테이너를 구축하십시오.

 # You can modify the environment variables in the script to specify the cuda version and operating system version
sh tools/build_docker_gpu.sh $PWD
nvidia-docker run --gpus all --net=host --rm -it -v $PWD:/workspace -v /etc/passwd:/etc/passwd --name=your_container_name REPOSITORY:TAG
# for example: nvidia-docker run --gpus all --net=host --rm -it -v $PWD:/workspace -v /etc/passwd:/etc/passwd --name=turbo_gpu_env thufeifeibear:0.1.1-cuda9.0-ubuntu16.04-gpu-dev

Docker 및 Unitest 테스트에 PIP 패키지를 설치하십시오

 cd /workspace
sh tools/build_and_run_unittests.sh $PWD -DWITH_GPU=ON

Docker 컨테이너에서 벤치 마크 (선택 사항)를 실행하고 Pytorch와 비교하십시오

 cd benchmark
bash gpu_run_benchmark.sh

또한 Turbotransformers의 GPU 버전을 포함하는 Docker 이미지를 준비했습니다.

 docker pull thufeifeibear/turbo_transformers_gpu:latest

텐서 코어 사용 (FP16)

텐서 코어는 GPU의 컴퓨팅을 가속화 할 수 있습니다. Turbotransformers에서는 기본적으로 비활성화됩니다. CMAKELISTS.TXT에서 _MODULE_BENCHMAKR을 켜고 옵션을 설정하기 전에 켜고 싶다면 옵션을 설정하십시오.

 option(WITH_TENSOR_CORE     "Use Tensor core to accelerate"     ON)

용법

Turbotransformers는 C ++ / Python API 인터페이스를 제공합니다. 우리는 사용자의 개발의 어려움을 줄이기 위해 다양한 온라인 환경에 적응하기 위해 최선을 다하기를 희망합니다.

사전 예방 된 모델 로딩

터보 사용의 첫 번째 단계는 미리 훈련 된 모델을로드하는 것입니다. 우리는 Pytorch 및 Tensorflow 미리 훈련 된 모델을 Huggingface/Transformers에로드하는 방법을 제공합니다. 특정 변환 방법은 ./tools의 해당 스크립트를 사용하여 미리 훈련 된 모델을 NPZ 형식 파일로 변환하는 것입니다. Turbo는 C ++ 또는 Python 인터페이스를 사용하여 NPZ 형식 모델을로드합니다. 특히, 우리는 미리 훈련 된 모델의 대부분이 Pytorch 형식이며 Python과 함께 사용된다고 생각합니다. 우리는 Pytorch 저장 모델을 위해 Python에서 직접 호출하기위한 바로 가기를 제공합니다.

아피스

파이썬 API

./example/python의 지원 모델의 예를 참조하십시오. Turbonlp/Translate-Demo는 번역 작업에 터보 트랜스 former를 적용하는 데모를 보여줍니다. Bert Acceleration 사용자는 항상 작업을위한 맞춤형 사후 처리 프로세스가 필요하므로 시퀀스 분류 응용 프로그램을 작성하는 방법의 예를 제공합니다.

C ++ API

예를 들어 ./example/cpp를 참조하십시오. 이 예제는 GPU와 2 개의 CPU 멀티 스레드 호출 방법을 제공합니다. 하나는 여러 스레드를 사용하여 하나의 버트 추론을 수행하는 것입니다. 다른 하나는 여러 개의 버트 추론을하는 것이며, 각 스레드는 하나의 스레드를 사용하는 것입니다. 사용자는 add_subdirectory를 통해 터보 전환기를 코드에 연결할 수 있습니다.

스마트 배치 (배치에서 제로 패딩 오버 헤드 최소화)

일반적으로 추론을 위해 다른 길이의 요청을 버트 모델에 공급하려면 모든 요청이 같은 길이를 갖도록 제로 패딩이 필요합니다. 예를 들어, 서빙 요청 목록 (100, 10, 50)은 길이 (100, 100, 100)로 패드하려면 전처리 단계가 필요합니다. 이러한 방식으로 마지막 두 시퀀스의 계산의 90% 및 50%가 낭비됩니다. 효과적인 변압기에 표시된 바와 같이, 입력 텐서를 패드 할 필요는 없습니다. 대안으로, 당신은 방수 보석 조작을 멀티 헤드 관심사 내부에 배치해야합니다. 따라서 대부분의 GEMM 작업은 제로 패딩없이 처리됩니다. Turbo는 스마트 배치 기술을 포함하여 BertModelSmartBatch 와 같은 모델을 제공합니다. 예제는 ./example/python/bert_smart_pad.py에 나와 있습니다.

새로운 모델을 기여하는 방법

코드의 핫스팟을 아는 방법?

새 레이어를 추가하는 방법?

TODO

현재 (2020 년 6 월), 가까운 시일 내에 저렴한 모델 (CPU INT8, GPU FP16)에 대한 지원을 추가 할 것입니다. 당신의 기여를 기대합니다!

특허

BSD 3-Clause 라이센스

알려진 문제

터보 변압기의 결과는 소수점 뒤에 2 자리 숫자 후 Pytorch의 결과와 다를 수 있습니다. 차이는 주로 Bert 출력 레이어에서 나옵니다. 우리는 Pytorch와 다를 수있는 대략적인 gelu 알고리즘을 사용합니다.
터보와 파이터는 동일한 MKL을 공유합니다. Pytorch 1.5.0의 MKL은 터보에서 느려질 수 있습니다. 이유를 결정해야합니다. Pytorch 버전을 1.1.0으로 다운로드하면 Turbo의 성능이 향상됩니다.
onnxruntime-cpu == 1.4.0 및 onnxruntime-gpu == 1.3.0은 동시에 작동 할 수 없습니다.

역사

Janurary 2021 V0.6.0, Turbotransformers는 스마트 배치를 지원합니다.
2020 년 7 월 V0.4.0, CPU 백엔드로 OnnxRuntime을 사용한 터보 트랜스 포어 러는 GPT2를 지원합니다. 양자화 된 bert.
2020 년 7 월 v0.3.1, 터보 트랜스 포어 러는 CPU/GPU의 Albert, Roberta에 대한 지원을 추가했습니다.
2020 년 6 월 v0.3.0, 터보 트랜스 formers는 CPU/GPU에서 변압기 디코더에 대한 지원을 추가했습니다.
2020 년 6 월 v0.2.1, 터보 트랜스포머는 BLIS를 BLAS 제공 업체 옵션으로 추가했습니다. AMD CPU에서 더 나은 성능.
2020 년 4 월 V0.0.1, 터보 트랜스 포어 러가 출시되어 CPU/GPU에서 최첨단 버트 추론 속도를 달성했습니다.

우리를 인용하십시오

연구 간행물에서 터보 트랜스 정보를 사용하는 경우이 백서를 인용하십시오.

 @inproceedings{fang2021turbotransformers,
  title={TurboTransformers: an efficient GPU serving system for transformer models},
  author={Fang, Jiarui and Yu, Yang and Zhao, Chengduo and Zhou, Jie},
  booktitle={Proceedings of the 26th ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming},
  pages={389--402},
  year={2021}
}

논문의 아티팩트는 분기 ppopp21_artifact_centos 에서 찾을 수 있습니다.

저희에게 연락하십시오

GitHub 문제에 문제를 게시하는 것이 좋습니다. Turbo 사용자 그룹에도 참여할 수도 있습니다.

이 QR 코드를 스캔하고 컨택 터를 WeChat 친구로 추가하십시오.
QQ Group, 이름 : 터보 트랜스 formers, 번호 : 1109315167.

확장하다

추가 정보

버전 v0.5.1
유형 기타 소스코드
업데이트 시간 2025-04-17
크기 2.97MB
출처 Github

TurboTransformers

Turbotransformers : CPU 및 GPU에서 변압기 추론을위한 빠르고 사용자 친화적 인 런타임

지원되는 모델

2 줄의 파이썬 코드에서 BERT 추론을 부스트하십시오

설치

CPU

GPU

텐서 코어 사용 (FP16)

용법

사전 예방 된 모델 로딩

아피스

파이썬 API

C ++ API

스마트 배치 (배치에서 제로 패딩 오버 헤드 최소화)

새로운 모델을 기여하는 방법

TODO

특허

알려진 문제

역사

우리를 인용하십시오

저희에게 연락하십시오

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express