aphrodite engineダウンロード-Aphrodite aphrodite engineソースコードのダウンロード

aphrodite engine

AI ソースコード

v0.6.5

ダウンロード

言語に命を吹き込む

Aphroditeは、Pygmalionaiの公式バックエンドエンジンです。これは、ピグマリオナイのウェブサイトの推論エンドポイントとして機能し、燃える速度の速度を発揮する多数のユーザーに顔を抱くモデルを抱き締めることを可能にするように設計されています（VLLMのページングの注目のおかげ）。

Aphroditeは、さまざまなプロジェクトの例外的な作業に基づいて統合されています。

Aphroditeの開発に必要な計算は、ARCコンピューティングによって提供されます。

ニュース

（09/2024）v0.6.1はこちらです。これで、FP2モデルをFP2からFP7 Quantフォーマットにロードして、非常に高いスループットを実現し、メモリを保存できるようになりました。

（09/2024）V0.6.0がリリースされ、大規模なスループットの改善、多くの新しい量子形式（FP8およびLLMコンプレッサーを含む）、非対称テンソルパラレル、パイプラインパラレルなど！ユーザーと開発者ガイドの徹底的なドキュメントをご覧ください。

特徴

連続バッチ
VLLMからのPagedAttentionを使用した効率的なK/V管理
改善された推論のための最適化されたCUDAカーネル
AQLM、AWQ、BitsandBytes、GGUF、GPTQ、QUIP＃、SmoothQuant+、Squeezellm、Marlin、FP2-FP12経由の量子化サポート
分散推論
FP8 E5M3およびE4M3形式の両方で、コンテキストの長さとスループットが高いため、8ビットKVキャッシュ。

クイックスタート

エンジンをインストールします：

pip install -U aphrodite-engine

次に、モデルを起動します。

aphrodite run meta-llama/Meta-Llama-3.1-8B-Instruct

これにより、LocalHostのポート2242でアクセスできるOpenAI互換APIサーバーが作成されます。 Sillytavernなど、OpenaiをサポートするUIにAPIを接続できます。

エンジンに渡すことができる引数とフラグの完全なリストについては、ドキュメントを参照してください。

ここでデモでエンジンで遊ぶことができます：

Docker

さらに、簡単に展開するためのDocker画像を提供します。これがあなたを始めるための基本的なコマンドです：

docker run --runtime nvidia --gpus all 
    -v ~ /.cache/huggingface:/root/.cache/huggingface 
    # --env "CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7" 
    -p 2242:2242 
    --ipc=host 
    alpindale/aphrodite-openai:latest 
    --model NousResearch/Meta-Llama-3.1-8B-Instruct 
    --tensor-parallel-size 8 
    --api-keys " sk-empty "

これにより、Aphrodite Engine Image（〜8GIBのダウンロード）が引かれ、ポート2242でLlama-3.1-8B-Instructモデルでエンジンが起動します。

要件

オペレーティングシステム：Linux（またはWindows用のWSL）
Python：3.8〜3.12

Windowsユーザーの場合、バッチサポートが必要ない場合は、代わりにTabbyapiを使用することをお勧めします。

要件の構築：

cuda> = 11

サポートされているデバイスについては、こちらをご覧ください。一般的に言えば、すべての準近代GPUがサポートされています - Pascal（GTX 10xx、P40など）にまで下げられます。

メモ

設計上、AphroditeはGPUのVRAMの90％を占めています。大規模なLLMを提供していない場合は、それが取り上げるメモリの量を制限することをお勧めします。これをAPIの例では--gpu-memory-utilization 0.6 （0.6は60％）を使用してサーバーを起動することで行うことができます。
aphrodite run --help実行することにより、コマンドの完全なリストを表示できます。