aphrodite engine 다운로드 - aphrodite engine 소스 코드 다운로드

aphrodite engine

AI 소스 코드

v0.6.5

다운로드

언어로 생명을 불어 넣습니다

Aphrodite는 Pygmalionai의 공식 백엔드 엔진입니다. Pygmalionai 웹 사이트의 추론 엔드 포인트 역할을하도록 설계되었으며, Face Speeds (Vllm의 페이징 관심 덕분에)가있는 많은 사용자에게 포옹 페이스 호환 모델을 제공 할 수 있도록 설계되었습니다.

아프로디테는 다양한 프로젝트의 뛰어난 작업을 기반으로 통합하고 통합합니다.

Aphrodite의 개발에 필요한 컴퓨팅은 Arc Compute에서 제공합니다.

소식

(09/2024) v0.6.1은 여기에 있습니다. 이제 FP16 모델로 FP2에서 FP7 Quant 형식을로드하여 매우 높은 처리량을 달성하고 메모리를 저장할 수 있습니다.

(09/2024) V0.6.0은 많은 처리량 개선, 많은 새로운 Quant Formats (FP8 및 LLM-Compressor 포함), 비대칭 텐서 병렬, 파이프 라인 평행 등이 출시되었습니다! 사용자 및 개발자 가이드에 대한 철저한 문서를 확인하십시오.

특징

연속 배치
VLLM의 PAGEDATTENTION을 통한 효율적인 K/V 관리
개선 된 추론을 위해 최적화 된 CUDA 커널
AQLM, AWQ, Bitsandbytes, GGUF, GPTQ, Quip#, SmoodQuant+, Squeezellm, Marlin, FP2-FP12를 통한 양자화 지원
분산 된 추론
FP8 E5M3 및 E4M3 형식 모두에서 더 높은 컨텍스트 길이 및 처리량에 대한 8 비트 KV 캐시.

QuickStart

엔진 설치 :

pip install -U aphrodite-engine

그런 다음 모델을 시작합니다.

aphrodite run meta-llama/Meta-Llama-3.1-8B-Instruct

이렇게하면 LocalHost의 포트 2242에서 액세스 할 수있는 OpenAI 호환 API 서버가 생성됩니다. API를 SilltaVern과 같은 OpenAI를 지원하는 UI에 API를 연결할 수 있습니다.

엔진에 전달할 수있는 전체 인수 및 플래그 목록은 문서를 참조하십시오.

데모의 엔진과 함께 놀 수 있습니다.

도커

또한 쉽게 배포 할 수있는 Docker 이미지를 제공합니다. 다음은 시작하기위한 기본 명령입니다.

docker run --runtime nvidia --gpus all 
    -v ~ /.cache/huggingface:/root/.cache/huggingface 
    # --env "CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7" 
    -p 2242:2242 
    --ipc=host 
    alpindale/aphrodite-openai:latest 
    --model NousResearch/Meta-Llama-3.1-8B-Instruct 
    --tensor-parallel-size 8 
    --api-keys " sk-empty "

이렇게하면 아프로디테 엔진 이미지 (~ 8Gib 다운로드)를 당기고 포트 2242에서 LLAMA-3.1-8B 강조 모델로 엔진을 시작합니다.

요구 사항

운영 체제 : Linux (또는 WSL 용 WSL)
파이썬 : 3.8 ~ 3.12

Windows 사용자의 경우 배치 지원이 필요하지 않은 경우 Tabbyapi를 대신 사용하는 것이 좋습니다.

요구 사항 빌드 :

cuda> = 11

지원되는 장치는 여기를 참조하십시오. 일반적으로 모든 반 모체 GPU가 지원됩니다. Pascal (GTX 10XX, P40 등)은 AMD GPU, Intel CPU 및 GPU, Google TPU 및 AWS 추론을 지원합니다.

메모

디자인으로 Aphrodite는 GPU VRAM의 90%를 차지합니다. LLM을 규모로 제공하지 않으면 메모리의 양을 제한 할 수 있습니다. --gpu-memory-utilization 0.6 (0.6 평균 60%)으로 서버를 시작하여 API 예제에서이를 수행 할 수 있습니다.
aphrodite run --help 실행하여 전체 명령 목록을 볼 수 있습니다.