Inferencia o cuantificar modelos de lenguaje grande (LLMS) localmente con un solo comando
Auto-LOILMA es un conjunto de herramientas diseñado para simplificar la inferencia o cuantización de modelos de idiomas grandes (LLM) directamente en su entorno local. Con un énfasis en la facilidad de uso y la flexibilidad, Auto-Ollama admite tanto el uso directo como la conversión de modelos en un formato eficiente para la implementación local.
Para cuantizar, consulte el nuevo paquete llamado Auto-Quantllm ⚡️. Actualmente está en desarrollo, pero su objetivo es proporcionar un enfoque simplificado y fácil de usar para cuantificar modelos de idiomas grandes (LLM) con diferentes métodos de cuantización.
Clon el repositorio para comenzar con Auto-Ollama:
git clone https://github.com/monk1337/auto-ollama.git
cd auto-ollamaEjecutando auto-ollama Use el script autollama.sh para inferir rápidamente LLMS. Este script requiere el nombre del modelo y el nombre de archivo cuantificado como argumentos.
# Deploy Large Language Models (LLMs) locally with Auto-Ollama
# Usage:
# ./scripts/autollama.sh -m <model path> -g <gguf file name>
# Example command:
./scripts/autollama.sh -m TheBloke/MistralLite-7B-GGUF -g mistrallite.Q4_K_M.ggufSi su modelo deseado no está disponible en un formato cuantificado adecuado para la implementación local, Auto-Lockama ofrece la utilidad AutoGguf. Esta herramienta puede convertir cualquier modelo de cara abrazada en el formato GGUF y cargarlo en el Hub Model de la cara abrazada.
# Convert your Hugging Face model to GGUF format for local deployment
# Usage:
# ./scripts/autogguf.sh -m <MODEL_ID> [-u USERNAME] [-t TOKEN] [-q QUANTIZATION_METHODS]
# Example command:
./scripts/autogguf.sh -m unsloth/gemma-2b # if want to upload the gguf model to hub after the conversion, provide the user and token
# Example command:
./scripts/autogguf.sh -m unsloth/gemma-2b -u user_name -t hf_token
# if wants to provide QUANTIZATION_METHODS
# Example command:
./scripts/autogguf.sh -m unsloth/gemma-2b -u user_name -t hf_token -q " q4_k_m,q5_k_m " Para problemas, sugerencias o contribuciones, abra un problema o retire la solicitud en el repositorio de GitHub. ¡Damos la bienvenida a las contribuciones de la comunidad para mejorar aún más el auto-lama!