Inférence ou quantifier les modèles de langage grand (LLMS) localement avec une seule commande
L'auto-allama est une boîte à outils conçue pour simplifier l'inférence ou la quantification des modèles de grande langue (LLM) directement sur votre environnement local. En mettant l'accent sur la facilité d'utilisation et la flexibilité, l'auto-allama prend en charge l'utilisation directe et la conversion des modèles en un format efficace pour le déploiement local.
Pour la quantification, consultez le nouveau package appelé Auto-Quantllm ⚡️. Il est actuellement en cours de développement, mais il vise à fournir une approche rationalisée et conviviale pour quantifier les modèles de gros langues (LLM) avec différentes méthodes de quantification.
Clone le référentiel pour commencer avec l'auto-allame:
git clone https://github.com/monk1337/auto-ollama.git
cd auto-ollamaL'exécution de l'allama automatique utilise le script Autollama.sh pour inférer rapidement les LLMS. Ce script nécessite le nom du modèle et le nom de fichier quantifié comme arguments.
# Deploy Large Language Models (LLMs) locally with Auto-Ollama
# Usage:
# ./scripts/autollama.sh -m <model path> -g <gguf file name>
# Example command:
./scripts/autollama.sh -m TheBloke/MistralLite-7B-GGUF -g mistrallite.Q4_K_M.ggufSi votre modèle souhaité n'est pas disponible dans un format quantifié adapté au déploiement local, l'auto-olma propose l'utilitaire Autogguf. Cet outil peut convertir n'importe quel modèle de visage étreint au format GGUF et le télécharger dans le moyeu de modèle de visage étreint.
# Convert your Hugging Face model to GGUF format for local deployment
# Usage:
# ./scripts/autogguf.sh -m <MODEL_ID> [-u USERNAME] [-t TOKEN] [-q QUANTIZATION_METHODS]
# Example command:
./scripts/autogguf.sh -m unsloth/gemma-2b # if want to upload the gguf model to hub after the conversion, provide the user and token
# Example command:
./scripts/autogguf.sh -m unsloth/gemma-2b -u user_name -t hf_token
# if wants to provide QUANTIZATION_METHODS
# Example command:
./scripts/autogguf.sh -m unsloth/gemma-2b -u user_name -t hf_token -q " q4_k_m,q5_k_m " Pour les problèmes, les suggestions ou les contributions, veuillez ouvrir une demande de problème ou de traction dans le référentiel GitHub. Nous accueillons les contributions de la communauté pour améliorer l'auto-allama!