Inferenz oder Quantisierung großer Sprachmodelle (LLMs) lokal mit einem einzigen Befehl
Auto-Ollama ist ein Toolkit, das die Schlussfolgerung oder Quantisierung von Großsprachenmodellen (LLMs) direkt in Ihrer lokalen Umgebung vereinfacht. Mit Schwerpunkt auf Benutzerfreundlichkeit und Flexibilität unterstützt Auto-Ollama sowohl die direkte Verwendung als auch die Umwandlung von Modellen in ein effizientes Format für die lokale Bereitstellung.
Zur Quantisierung lesen Sie das neue Paket namens Auto-Quantllm ⚡️. Es befindet sich derzeit in der Entwicklung, zielt jedoch darauf ab, einen optimierten und benutzerfreundlichen Ansatz zur Quantisierung von großsprachigen Modellen (LLMs) mit unterschiedlichen Quantisierungsmethoden bereitzustellen.
Klonen Sie das Repository, um mit Auto-Ollama zu beginnen:
git clone https://github.com/monk1337/auto-ollama.git
cd auto-ollamaAusführen von automatischem Lollama Verwenden Sie das Autollama.sh-Skript, um LLMs schnell zu inferenzieren. Dieses Skript erfordert den Modellnamen und den quantisierten Dateinamen als Argumente.
# Deploy Large Language Models (LLMs) locally with Auto-Ollama
# Usage:
# ./scripts/autollama.sh -m <model path> -g <gguf file name>
# Example command:
./scripts/autollama.sh -m TheBloke/MistralLite-7B-GGUF -g mistrallite.Q4_K_M.ggufWenn Ihr gewünschtes Modell nicht in einem quantisierten Format verfügbar ist, das für die lokale Bereitstellung geeignet ist, bietet Auto-Ollama das AutoGGUF-Dienstprogramm an. Dieses Werkzeug kann jedes umarmende Gesichtsmodell in das GGUF -Format umwandeln und es in den Umarmungs -Gesichtsmodell -Hub hochladen.
# Convert your Hugging Face model to GGUF format for local deployment
# Usage:
# ./scripts/autogguf.sh -m <MODEL_ID> [-u USERNAME] [-t TOKEN] [-q QUANTIZATION_METHODS]
# Example command:
./scripts/autogguf.sh -m unsloth/gemma-2b # if want to upload the gguf model to hub after the conversion, provide the user and token
# Example command:
./scripts/autogguf.sh -m unsloth/gemma-2b -u user_name -t hf_token
# if wants to provide QUANTIZATION_METHODS
# Example command:
./scripts/autogguf.sh -m unsloth/gemma-2b -u user_name -t hf_token -q " q4_k_m,q5_k_m " Für Probleme, Vorschläge oder Beiträge öffnen Sie bitte ein Problem oder ziehen Sie eine Anfrage im Github -Repository an. Wir begrüßen Beiträge der Community, um Auto-Ollama noch besser zu machen!