Dieses Projekt steht im aktiven Einsatz. Breaking -Änderungen könnten jederzeit vorgenommen werden.
Lama als Service! In diesem Projekt wird versucht, einen ruh-ful-API-Server zu erstellen, der mit Open-Source-Backends wie LLAMA/LLAMA2, die für OpenAI-API kompatibel ist, kompatibel ist.
Mit diesem Projekt können viele gängige GPT -Tools/Framework mit Ihrem eigenen Modell kompatibel.
Befolgen Sie den Anweisungen in diesem Collab -Notebook, um es online zu spielen. Vielen Dank, dass Sie es aufgebaut haben!
Wenn Sie lama.cpp nicht quantisiert haben, müssen Sie Anweisungen befolgen, um das Modell vorzubereiten.
Wenn Sie Pyllama nicht quantisieren, müssen Sie Anweisungen befolgen, um das Modell vorzubereiten.
Verwenden Sie das folgende Skript zum Herunterladen von Paket von PYPI und generiert Modellkonfigurationsdatei config.yml und Security Token Datei tokens.txt .
pip install llama-api-server
# to run wth pyllama
pip install llama-api-server[pyllama]
cat > config.yml << EOF
models:
completions:
# completions and chat_completions use same model
text-ada-002:
type: llama_cpp
params:
path: /absolute/path/to/your/7B/ggml-model-q4_0.bin
text-davinci-002:
type: pyllama_quant
params:
path: /absolute/path/to/your/pyllama-7B4b.pt
text-davinci-003:
type: pyllama
params:
ckpt_dir: /absolute/path/to/your/7B/
tokenizer_path: /absolute/path/to/your/tokenizer.model
# keep to 1 instance to speed up loading of model
embeddings:
text-embedding-davinci-002:
type: pyllama_quant
params:
path: /absolute/path/to/your/pyllama-7B4b.pt
min_instance: 1
max_instance: 1
idle_timeout: 3600
text-embedding-ada-002:
type: llama_cpp
params:
path: /absolute/path/to/your/7B/ggml-model-q4_0.bin
EOF
echo "SOME_TOKEN" > tokens.txt
# start web server
python -m llama_api_server
# or visible across the network
python -m llama_api_server --host=0.0.0.0
export OPENAI_API_KEY=SOME_TOKEN
export OPENAI_API_BASE=http://127.0.0.1:5000/v1
openai api completions.create -e text-ada-002 -p "hello?"
# or using chat
openai api chat_completions.create -e text-ada-002 -g user "hello?"
# or calling embedding
curl -X POST http://127.0.0.1:5000/v1/embeddings -H 'Content-Type: application/json' -d '{"model":"text-embedding-ada-002", "input":"It is good."}' -H "Authorization: Bearer SOME_TOKEN"
temperature , top_p und top_k ein max_tokens echo einstellen stop stream einstellen n presence_penalty und frequency_penalty logit_bias festlegen n_batch und n_thread