Aphroditeは、Pygmalionaiの公式バックエンドエンジンです。これは、ピグマリオナイのウェブサイトの推論エンドポイントとして機能し、燃える速度の速度を発揮する多数のユーザーに顔を抱くモデルを抱き締めることを可能にするように設計されています(VLLMのページングの注目のおかげ)。
Aphroditeは、さまざまなプロジェクトの例外的な作業に基づいて統合されています。
Aphroditeの開発に必要な計算は、ARCコンピューティングによって提供されます。
(09/2024)v0.6.1はこちらです。これで、FP2モデルをFP2からFP7 Quantフォーマットにロードして、非常に高いスループットを実現し、メモリを保存できるようになりました。
(09/2024)V0.6.0がリリースされ、大規模なスループットの改善、多くの新しい量子形式(FP8およびLLMコンプレッサーを含む)、非対称テンソルパラレル、パイプラインパラレルなど!ユーザーと開発者ガイドの徹底的なドキュメントをご覧ください。
エンジンをインストールします:
pip install -U aphrodite-engine次に、モデルを起動します。
aphrodite run meta-llama/Meta-Llama-3.1-8B-Instructこれにより、LocalHostのポート2242でアクセスできるOpenAI互換APIサーバーが作成されます。 Sillytavernなど、OpenaiをサポートするUIにAPIを接続できます。
エンジンに渡すことができる引数とフラグの完全なリストについては、ドキュメントを参照してください。
ここでデモでエンジンで遊ぶことができます:
さらに、簡単に展開するためのDocker画像を提供します。これがあなたを始めるための基本的なコマンドです:
docker run --runtime nvidia --gpus all
-v ~ /.cache/huggingface:/root/.cache/huggingface
# --env "CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7"
-p 2242:2242
--ipc=host
alpindale/aphrodite-openai:latest
--model NousResearch/Meta-Llama-3.1-8B-Instruct
--tensor-parallel-size 8
--api-keys " sk-empty "これにより、Aphrodite Engine Image(〜8GIBのダウンロード)が引かれ、ポート2242でLlama-3.1-8B-Instructモデルでエンジンが起動します。
Windowsユーザーの場合、バッチサポートが必要ない場合は、代わりにTabbyapiを使用することをお勧めします。
サポートされているデバイスについては、こちらをご覧ください。一般的に言えば、すべての準近代GPUがサポートされています - Pascal(GTX 10xx、P40など)にまで下げられます。
設計上、AphroditeはGPUのVRAMの90%を占めています。大規模なLLMを提供していない場合は、それが取り上げるメモリの量を制限することをお勧めします。これをAPIの例では--gpu-memory-utilization 0.6 (0.6は60%)を使用してサーバーを起動することで行うことができます。
aphrodite run --help実行することにより、コマンドの完全なリストを表示できます。
アフロディーテエンジンは、他のオープンソースプロジェクトの驚異的な仕事なしでは不可能でした。クレジットに移動します:
誰もが貢献できます。新機能、修正、または一般的なUXの改善のためのプルリクエストを開くことで、プロジェクトをサポートできます。