Download auto ollama - auto ollama download do código -fonte

auto ollama

Código-Fonte de IA

1.0.0

Baixar

Auto-ollama e auto-gguf ⚡️

Inferência ou quantizar modelos de linguagem grande (LLMS) localmente com um único comando

Visão geral

O Auto-Colama é um kit de ferramentas projetado para simplificar a inferência ou quantização de grandes modelos de linguagem (LLMS) diretamente no seu ambiente local. Com ênfase na facilidade de uso e flexibilidade, o Auto-Colama suporta o uso direto e a conversão de modelos em um formato eficiente para a implantação local.

Para quantização, consulte o novo pacote chamado Auto-Quantllm ⚡️. Atualmente, está em desenvolvimento, mas pretende fornecer uma abordagem simplificada e amigável para quantizar modelos de linguagem grandes (LLMs) com diferentes métodos de quantização.

Começando

Instalação

Clone o repositório para começar com o Auto-Colama:

git clone https://github.com/monk1337/auto-ollama.git
cd auto-ollama

Tour rápido

A execução de auto-vullama usa o script Autollama.sh para infere-se rapidamente LLMS. Este script requer o nome do modelo e o nome do arquivo quantizado como argumentos.

 # Deploy Large Language Models (LLMs) locally with Auto-Ollama
# Usage:
# ./scripts/autollama.sh -m <model path> -g <gguf file name>


# Example command:
./scripts/autollama.sh -m TheBloke/MistralLite-7B-GGUF -g mistrallite.Q4_K_M.gguf

Lidar com modelos não quantizados com AutoGguf

Se o modelo desejado não estiver disponível em um formato quantizado adequado para implantação local, o Auto-Colama oferece o utilitário AutoGguf. Esta ferramenta pode converter qualquer modelo de rosto abraçando no formato GGUF e carregá -lo no hub do modelo de rosto abraçado.

 # Convert your Hugging Face model to GGUF format for local deployment
# Usage:
# ./scripts/autogguf.sh -m <MODEL_ID> [-u USERNAME] [-t TOKEN] [-q QUANTIZATION_METHODS]

# Example command:
./scripts/autogguf.sh -m unsloth/gemma-2b

Mais opções

 # if want to upload the gguf model to hub after the conversion, provide the user and token
# Example command:
./scripts/autogguf.sh -m unsloth/gemma-2b -u user_name -t hf_token


# if wants to provide QUANTIZATION_METHODS
# Example command:
./scripts/autogguf.sh -m unsloth/gemma-2b -u user_name -t hf_token -q " q4_k_m,q5_k_m "

Recomendações de quantização

Use Q5_K_M para obter o melhor saldo de recursos de desempenho.
Q4_K_M é uma boa opção se você precisar salvar memória.
As versões K_M geralmente têm um desempenho melhor que o K_S.

Suporte e contribuições

Para problemas, sugestões ou contribuições, abra um problema ou puxe a solicitação no repositório do GitHub. Congratulamo-nos com contribuições da comunidade para tornar o Auto-Colama ainda melhor!

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-09-02
tamanho 13.03KB
Vindo de Github

Aplicativos Relacionados

ollama dl

2024-11-10
ComfyUI_Auto_Caption

2024-11-06
auto round

2024-11-06
Mesclar automaticamente a versão chinesa

2023-11-28
Pacote de instalação Auto Life I Brasil

2023-03-16
Magnata da concessionária de automóveis

2022-08-20

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos