Aphrodite는 Pygmalionai의 공식 백엔드 엔진입니다. Pygmalionai 웹 사이트의 추론 엔드 포인트 역할을하도록 설계되었으며, Face Speeds (Vllm의 페이징 관심 덕분에)가있는 많은 사용자에게 포옹 페이스 호환 모델을 제공 할 수 있도록 설계되었습니다.
아프로디테는 다양한 프로젝트의 뛰어난 작업을 기반으로 통합하고 통합합니다.
Aphrodite의 개발에 필요한 컴퓨팅은 Arc Compute에서 제공합니다.
(09/2024) v0.6.1은 여기에 있습니다. 이제 FP16 모델로 FP2에서 FP7 Quant 형식을로드하여 매우 높은 처리량을 달성하고 메모리를 저장할 수 있습니다.
(09/2024) V0.6.0은 많은 처리량 개선, 많은 새로운 Quant Formats (FP8 및 LLM-Compressor 포함), 비대칭 텐서 병렬, 파이프 라인 평행 등이 출시되었습니다! 사용자 및 개발자 가이드에 대한 철저한 문서를 확인하십시오.
엔진 설치 :
pip install -U aphrodite-engine그런 다음 모델을 시작합니다.
aphrodite run meta-llama/Meta-Llama-3.1-8B-Instruct이렇게하면 LocalHost의 포트 2242에서 액세스 할 수있는 OpenAI 호환 API 서버가 생성됩니다. API를 SilltaVern과 같은 OpenAI를 지원하는 UI에 API를 연결할 수 있습니다.
엔진에 전달할 수있는 전체 인수 및 플래그 목록은 문서를 참조하십시오.
데모의 엔진과 함께 놀 수 있습니다.
또한 쉽게 배포 할 수있는 Docker 이미지를 제공합니다. 다음은 시작하기위한 기본 명령입니다.
docker run --runtime nvidia --gpus all
-v ~ /.cache/huggingface:/root/.cache/huggingface
# --env "CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7"
-p 2242:2242
--ipc=host
alpindale/aphrodite-openai:latest
--model NousResearch/Meta-Llama-3.1-8B-Instruct
--tensor-parallel-size 8
--api-keys " sk-empty "이렇게하면 아프로디테 엔진 이미지 (~ 8Gib 다운로드)를 당기고 포트 2242에서 LLAMA-3.1-8B 강조 모델로 엔진을 시작합니다.
Windows 사용자의 경우 배치 지원이 필요하지 않은 경우 Tabbyapi를 대신 사용하는 것이 좋습니다.
지원되는 장치는 여기를 참조하십시오. 일반적으로 모든 반 모체 GPU가 지원됩니다. Pascal (GTX 10XX, P40 등)은 AMD GPU, Intel CPU 및 GPU, Google TPU 및 AWS 추론을 지원합니다.
디자인으로 Aphrodite는 GPU VRAM의 90%를 차지합니다. LLM을 규모로 제공하지 않으면 메모리의 양을 제한 할 수 있습니다. --gpu-memory-utilization 0.6 (0.6 평균 60%)으로 서버를 시작하여 API 예제에서이를 수행 할 수 있습니다.
aphrodite run --help 실행하여 전체 명령 목록을 볼 수 있습니다.
아프로디테 엔진은 다른 오픈 소스 프로젝트의 놀라운 작업 없이는 불가능했을 것입니다. 크레딧은 다음으로 이동합니다.
모두가 기여할 수 있습니다. 새로운 기능, 수정 또는 일반적인 UX 개선에 대한 풀 요청을 열어 프로젝트를 지원할 수 있습니다.