auto ollama -Download - auto ollama -Quellcode herunterladen

auto ollama

AI-Quellcode

1.0.0

Herunterladen

Auto-Ollama & Auto-Gguf ⚡️

Inferenz oder Quantisierung großer Sprachmodelle (LLMs) lokal mit einem einzigen Befehl

Überblick

Auto-Ollama ist ein Toolkit, das die Schlussfolgerung oder Quantisierung von Großsprachenmodellen (LLMs) direkt in Ihrer lokalen Umgebung vereinfacht. Mit Schwerpunkt auf Benutzerfreundlichkeit und Flexibilität unterstützt Auto-Ollama sowohl die direkte Verwendung als auch die Umwandlung von Modellen in ein effizientes Format für die lokale Bereitstellung.

Zur Quantisierung lesen Sie das neue Paket namens Auto-Quantllm ⚡️. Es befindet sich derzeit in der Entwicklung, zielt jedoch darauf ab, einen optimierten und benutzerfreundlichen Ansatz zur Quantisierung von großsprachigen Modellen (LLMs) mit unterschiedlichen Quantisierungsmethoden bereitzustellen.

Erste Schritte

Installation

Klonen Sie das Repository, um mit Auto-Ollama zu beginnen:

git clone https://github.com/monk1337/auto-ollama.git
cd auto-ollama

Schnelle Tour

Ausführen von automatischem Lollama Verwenden Sie das Autollama.sh-Skript, um LLMs schnell zu inferenzieren. Dieses Skript erfordert den Modellnamen und den quantisierten Dateinamen als Argumente.

 # Deploy Large Language Models (LLMs) locally with Auto-Ollama
# Usage:
# ./scripts/autollama.sh -m <model path> -g <gguf file name>


# Example command:
./scripts/autollama.sh -m TheBloke/MistralLite-7B-GGUF -g mistrallite.Q4_K_M.gguf

Umgang mit nicht quantisierten Modellen mit autogguf

Wenn Ihr gewünschtes Modell nicht in einem quantisierten Format verfügbar ist, das für die lokale Bereitstellung geeignet ist, bietet Auto-Ollama das AutoGGUF-Dienstprogramm an. Dieses Werkzeug kann jedes umarmende Gesichtsmodell in das GGUF -Format umwandeln und es in den Umarmungs -Gesichtsmodell -Hub hochladen.

 # Convert your Hugging Face model to GGUF format for local deployment
# Usage:
# ./scripts/autogguf.sh -m <MODEL_ID> [-u USERNAME] [-t TOKEN] [-q QUANTIZATION_METHODS]

# Example command:
./scripts/autogguf.sh -m unsloth/gemma-2b

Weitere Optionen

 # if want to upload the gguf model to hub after the conversion, provide the user and token
# Example command:
./scripts/autogguf.sh -m unsloth/gemma-2b -u user_name -t hf_token


# if wants to provide QUANTIZATION_METHODS
# Example command:
./scripts/autogguf.sh -m unsloth/gemma-2b -u user_name -t hf_token -q " q4_k_m,q5_k_m "

Quantisierungsempfehlungen

Verwenden Sie Q5_K_M für die beste Leistung des Leistungsressources.
Q4_K_M ist eine gute Wahl, wenn Sie Speicher speichern müssen.
K_M -Versionen funktionieren im Allgemeinen besser als K_s.

Unterstützung und Beiträge

Für Probleme, Vorschläge oder Beiträge öffnen Sie bitte ein Problem oder ziehen Sie eine Anfrage im Github -Repository an. Wir begrüßen Beiträge der Community, um Auto-Ollama noch besser zu machen!

Expandieren

Zusätzliche Informationen