aphrodite engine Download - aphrodite engine Quellcode Download

aphrodite engine

AI-Quellcode

v0.6.5

Herunterladen

Leben in die Sprache einatmen

Aphrodite ist der offizielle Backend -Motor für Pygmalionai. Es ist so konzipiert, dass es als Inferenzendpunkt für die Pygmalionai-Website dient und eine große Anzahl von Benutzern mit fließenden Geschwindigkeiten (dank VllMs aufgebrachte Aufmerksamkeit) dienen kann.

Aphrodite baut auf und integriert die außergewöhnlichen Arbeiten aus verschiedenen Projekten.

Das für die Entwicklung von Aphrodite erforderliche Berechnung erfolgt durch ARC -Computer.

Nachricht

(09.09.2024) V0.6.1 ist hier. Sie können jetzt FP16 -Modelle in FP2 in FP7 -Quantformate laden, um einen extrem hohen Durchsatz zu erzielen und den Speicher zu sparen.

(09.09.2024) V0.6.0 wird mit enormen Durchsatzverbesserungen veröffentlicht, viele neue Quantformate (einschließlich FP8 und LLM-Compressor), asymmetrischer Tensor-Parallel, Pipeline parallel und mehr! Bitte lesen Sie die umfassende Dokumentation für Benutzer- und Entwicklerführer.

Merkmale

Kontinuierliche Charge
Effizientes K/V -Management mit PageDattention von VLLM
Optimierte Cuda -Kerne für eine verbesserte Folgerung
Quantisierungsunterstützung über AQLM, AWQ, Bitsandbytes, GGUF, GPTQ, Quip#, Smoothquant+, Squeezellm, Marlin, FP2-FP12
Verteilte Inferenz
8-Bit-KV-Cache für höhere Kontextlängen und -durchsatz sowohl in FP8 E5M3- als auch in E4M3-Formaten.

QuickStart

Den Motor installieren:

pip install -U aphrodite-engine

Starten Sie dann ein Modell:

aphrodite run meta-llama/Meta-Llama-3.1-8B-Instruct

Dadurch wird ein OpenAI-kompatibler API-Server erstellt, auf den bei Port 2242 des Localhost zugegriffen werden kann. Sie können die API in eine Benutzeroberfläche anschließen, die OpenAI unterstützt, wie z. B. Sillytern.

In der Dokumentation finden Sie die vollständige Liste der Argumente und Flaggen, die Sie an den Motor übergeben können.

Sie können hier mit dem Motor in der Demo herumspielen:

Docker

Darüber hinaus bieten wir ein Docker -Image für eine einfache Bereitstellung. Hier ist ein grundlegender Befehl, um Ihnen den Einstieg zu erleichtern:

docker run --runtime nvidia --gpus all 
    -v ~ /.cache/huggingface:/root/.cache/huggingface 
    # --env "CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7" 
    -p 2242:2242 
    --ipc=host 
    alpindale/aphrodite-openai:latest 
    --model NousResearch/Meta-Llama-3.1-8B-Instruct 
    --tensor-parallel-size 8 
    --api-keys " sk-empty "

Dadurch wird das Aphrodite-Motorbild (~ 8Gib-Download) gezogen und den Motor mit dem Lama-3,1-8B-Instruct-Modell in Port 2242 startet.

Anforderungen

Betriebssystem: Linux (oder WSL für Windows)
Python: 3,8 bis 3,12

Für Windows -Benutzer wird empfohlen, stattdessen Tabbyapi zu verwenden, wenn Sie keine Batching -Unterstützung benötigen.

Anforderungen erstellen:

CUDA> = 11

Für unterstützte Geräte siehe hier. Im Allgemeinen werden alle semi -modernen GPUs unterstützt - bis hin zu Pascal (GTX 10xx, P40 usw.). Wir unterstützen auch AMD -GPUs, Intel CPUs und GPUs, Google TPU und AWS inferentia.

Notizen

Aphrodite nimmt 90% des VRAM Ihrer GPU auf. Wenn Sie einen LLM im Maßstab nicht bedienen, möchten Sie möglicherweise die Menge an Speicher einschränken, die es nimmt. Sie können dies im API-Beispiel tun, indem Sie den Server mit der --gpu-memory-utilization 0.6 (0,6 bedeutet 60%).
Sie können die vollständige Liste der Befehle anzeigen, indem Sie aphrodite run --help ausführen.

Anerkennung

Aphrodite Engine wäre ohne die phänomenale Arbeit anderer Open-Source-Projekte nicht möglich gewesen. Credits gehen zu:

vllm (cacheflow)
Tensorrt-Llm
Xformers
Flash -Aufmerksamkeit
lama.cpp
Autoawq
Autogptq
Squeezellm
Exllamav2
Tabbyapi
Aqlm
Koboldai
Textgenerierung Webui
Megatron-lm
Strahl

Beitragen

Jeder ist eingeladen, einen Beitrag zu leisten. Sie können das Projekt unterstützen, indem Sie Pull -Anfragen nach neuen Funktionen, Korrekturen oder allgemeinen UX -Verbesserungen öffnen.

Expandieren

Zusätzliche Informationen