llama api server Download - LLAMA llama api server Download

Deutsch

中文(简体) 中文(繁体) 한국어 日本語 English Português Español Русский العربية Indonesia Deutsch Français ภาษาไทย

Startseite>Programmierbezogen>Anderer Quellcode

llama api server

Anderer Quellcode

v0.3.5

Herunterladen

? Lama-api-Server

Dieses Projekt steht im aktiven Einsatz. Breaking -Änderungen könnten jederzeit vorgenommen werden.

Lama als Service! In diesem Projekt wird versucht, einen ruh-ful-API-Server zu erstellen, der mit Open-Source-Backends wie LLAMA/LLAMA2, die für OpenAI-API kompatibel ist, kompatibel ist.

Mit diesem Projekt können viele gängige GPT -Tools/Framework mit Ihrem eigenen Modell kompatibel.

Fangen an

Probieren Sie es online aus!

Befolgen Sie den Anweisungen in diesem Collab -Notebook, um es online zu spielen. Vielen Dank, dass Sie es aufgebaut haben!

Modell vorbereiten

lama.cpp

Wenn Sie lama.cpp nicht quantisiert haben, müssen Sie Anweisungen befolgen, um das Modell vorzubereiten.

Pyllama

Wenn Sie Pyllama nicht quantisieren, müssen Sie Anweisungen befolgen, um das Modell vorzubereiten.

Installieren

Verwenden Sie das folgende Skript zum Herunterladen von Paket von PYPI und generiert Modellkonfigurationsdatei config.yml und Security Token Datei tokens.txt .

 pip install llama-api-server

# to run wth pyllama
pip install llama-api-server[pyllama]

cat > config.yml << EOF
models:
  completions:
    # completions and chat_completions use same model
    text-ada-002:
      type: llama_cpp
      params:
        path: /absolute/path/to/your/7B/ggml-model-q4_0.bin
    text-davinci-002:
      type: pyllama_quant
      params:
        path: /absolute/path/to/your/pyllama-7B4b.pt
    text-davinci-003:
      type: pyllama
      params:
        ckpt_dir: /absolute/path/to/your/7B/
        tokenizer_path: /absolute/path/to/your/tokenizer.model
      # keep to 1 instance to speed up loading of model
  embeddings:
    text-embedding-davinci-002:
      type: pyllama_quant
      params:
        path: /absolute/path/to/your/pyllama-7B4b.pt
      min_instance: 1
      max_instance: 1
      idle_timeout: 3600
    text-embedding-ada-002:
      type: llama_cpp
      params:
        path: /absolute/path/to/your/7B/ggml-model-q4_0.bin
EOF

echo "SOME_TOKEN" > tokens.txt

# start web server
python -m llama_api_server
# or visible across the network
python -m llama_api_server --host=0.0.0.0

Rufen Sie mit Openai-Python an

 export OPENAI_API_KEY=SOME_TOKEN
export OPENAI_API_BASE=http://127.0.0.1:5000/v1

openai api completions.create -e text-ada-002 -p "hello?"
# or using chat
openai api chat_completions.create -e text-ada-002 -g user "hello?"
# or calling embedding
curl -X POST http://127.0.0.1:5000/v1/embeddings -H 'Content-Type: application/json' -d '{"model":"text-embedding-ada-002", "input":"It is good."}'  -H "Authorization: Bearer SOME_TOKEN"

? ️Roadmap

Getestet mit

Openai-Python
- Openai_api_type = Standard
- Openai_api_type = azure
Lama-Index

Unterstützte APIs

Unterstützte Backends

Andere

Leistungsparameter wie n_batch und n_thread
Token Auth
Unterlagen
Intergrationstests
Ein Tool zum Herunterladen/Vorbereiten des Vorbereitungsmodells
Machen Sie die Datei config.ini und Token konfigurierbar

Expandieren

Zusätzliche Informationen

Version v0.3.5
Typ Anderer Quellcode
Aktualisierungszeit 2025-03-02
Größe 19.01KB
Kommt von Github

Ähnliche Anwendungen

node llama cpp

2024-11-11
llama models

2024-11-10
Arcaea server

2024-11-04
LLaMA Factory

2024-11-02
Code Lama

2023-10-30
Lama 2

2023-08-17

llama api server

? Lama-api-Server

Fangen an

Probieren Sie es online aus!

Modell vorbereiten

lama.cpp

Pyllama

Installieren

Rufen Sie mit Openai-Python an

? ️Roadmap

Getestet mit

Unterstützte APIs

Unterstützte Backends

Andere

node llama cpp

llama models

Arcaea server

LLaMA Factory

Code Lama

Lama 2

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

hidusbf

Google Dorks

shepherd

hidusbf