Inferência ou quantizar modelos de linguagem grande (LLMS) localmente com um único comando
O Auto-Colama é um kit de ferramentas projetado para simplificar a inferência ou quantização de grandes modelos de linguagem (LLMS) diretamente no seu ambiente local. Com ênfase na facilidade de uso e flexibilidade, o Auto-Colama suporta o uso direto e a conversão de modelos em um formato eficiente para a implantação local.
Para quantização, consulte o novo pacote chamado Auto-Quantllm ⚡️. Atualmente, está em desenvolvimento, mas pretende fornecer uma abordagem simplificada e amigável para quantizar modelos de linguagem grandes (LLMs) com diferentes métodos de quantização.
Clone o repositório para começar com o Auto-Colama:
git clone https://github.com/monk1337/auto-ollama.git
cd auto-ollamaA execução de auto-vullama usa o script Autollama.sh para infere-se rapidamente LLMS. Este script requer o nome do modelo e o nome do arquivo quantizado como argumentos.
# Deploy Large Language Models (LLMs) locally with Auto-Ollama
# Usage:
# ./scripts/autollama.sh -m <model path> -g <gguf file name>
# Example command:
./scripts/autollama.sh -m TheBloke/MistralLite-7B-GGUF -g mistrallite.Q4_K_M.ggufSe o modelo desejado não estiver disponível em um formato quantizado adequado para implantação local, o Auto-Colama oferece o utilitário AutoGguf. Esta ferramenta pode converter qualquer modelo de rosto abraçando no formato GGUF e carregá -lo no hub do modelo de rosto abraçado.
# Convert your Hugging Face model to GGUF format for local deployment
# Usage:
# ./scripts/autogguf.sh -m <MODEL_ID> [-u USERNAME] [-t TOKEN] [-q QUANTIZATION_METHODS]
# Example command:
./scripts/autogguf.sh -m unsloth/gemma-2b # if want to upload the gguf model to hub after the conversion, provide the user and token
# Example command:
./scripts/autogguf.sh -m unsloth/gemma-2b -u user_name -t hf_token
# if wants to provide QUANTIZATION_METHODS
# Example command:
./scripts/autogguf.sh -m unsloth/gemma-2b -u user_name -t hf_token -q " q4_k_m,q5_k_m " Para problemas, sugestões ou contribuições, abra um problema ou puxe a solicitação no repositório do GitHub. Congratulamo-nos com contribuições da comunidade para tornar o Auto-Colama ainda melhor!