Aphrodite ist der offizielle Backend -Motor für Pygmalionai. Es ist so konzipiert, dass es als Inferenzendpunkt für die Pygmalionai-Website dient und eine große Anzahl von Benutzern mit fließenden Geschwindigkeiten (dank VllMs aufgebrachte Aufmerksamkeit) dienen kann.
Aphrodite baut auf und integriert die außergewöhnlichen Arbeiten aus verschiedenen Projekten.
Das für die Entwicklung von Aphrodite erforderliche Berechnung erfolgt durch ARC -Computer.
(09.09.2024) V0.6.1 ist hier. Sie können jetzt FP16 -Modelle in FP2 in FP7 -Quantformate laden, um einen extrem hohen Durchsatz zu erzielen und den Speicher zu sparen.
(09.09.2024) V0.6.0 wird mit enormen Durchsatzverbesserungen veröffentlicht, viele neue Quantformate (einschließlich FP8 und LLM-Compressor), asymmetrischer Tensor-Parallel, Pipeline parallel und mehr! Bitte lesen Sie die umfassende Dokumentation für Benutzer- und Entwicklerführer.
Den Motor installieren:
pip install -U aphrodite-engineStarten Sie dann ein Modell:
aphrodite run meta-llama/Meta-Llama-3.1-8B-InstructDadurch wird ein OpenAI-kompatibler API-Server erstellt, auf den bei Port 2242 des Localhost zugegriffen werden kann. Sie können die API in eine Benutzeroberfläche anschließen, die OpenAI unterstützt, wie z. B. Sillytern.
In der Dokumentation finden Sie die vollständige Liste der Argumente und Flaggen, die Sie an den Motor übergeben können.
Sie können hier mit dem Motor in der Demo herumspielen:
Darüber hinaus bieten wir ein Docker -Image für eine einfache Bereitstellung. Hier ist ein grundlegender Befehl, um Ihnen den Einstieg zu erleichtern:
docker run --runtime nvidia --gpus all
-v ~ /.cache/huggingface:/root/.cache/huggingface
# --env "CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7"
-p 2242:2242
--ipc=host
alpindale/aphrodite-openai:latest
--model NousResearch/Meta-Llama-3.1-8B-Instruct
--tensor-parallel-size 8
--api-keys " sk-empty "Dadurch wird das Aphrodite-Motorbild (~ 8Gib-Download) gezogen und den Motor mit dem Lama-3,1-8B-Instruct-Modell in Port 2242 startet.
Für Windows -Benutzer wird empfohlen, stattdessen Tabbyapi zu verwenden, wenn Sie keine Batching -Unterstützung benötigen.
Für unterstützte Geräte siehe hier. Im Allgemeinen werden alle semi -modernen GPUs unterstützt - bis hin zu Pascal (GTX 10xx, P40 usw.). Wir unterstützen auch AMD -GPUs, Intel CPUs und GPUs, Google TPU und AWS inferentia.
Aphrodite nimmt 90% des VRAM Ihrer GPU auf. Wenn Sie einen LLM im Maßstab nicht bedienen, möchten Sie möglicherweise die Menge an Speicher einschränken, die es nimmt. Sie können dies im API-Beispiel tun, indem Sie den Server mit der --gpu-memory-utilization 0.6 (0,6 bedeutet 60%).
Sie können die vollständige Liste der Befehle anzeigen, indem Sie aphrodite run --help ausführen.
Aphrodite Engine wäre ohne die phänomenale Arbeit anderer Open-Source-Projekte nicht möglich gewesen. Credits gehen zu:
Jeder ist eingeladen, einen Beitrag zu leisten. Sie können das Projekt unterstützen, indem Sie Pull -Anfragen nach neuen Funktionen, Korrekturen oder allgemeinen UX -Verbesserungen öffnen.