Descarga auto ollama - auto ollama

auto ollama

Código Fuente de IA

1.0.0

Descargar

Auto-LOLLAMA y Auto-GGUF ⚡️

Inferencia o cuantificar modelos de lenguaje grande (LLMS) localmente con un solo comando

Descripción general

Auto-LOILMA es un conjunto de herramientas diseñado para simplificar la inferencia o cuantización de modelos de idiomas grandes (LLM) directamente en su entorno local. Con un énfasis en la facilidad de uso y la flexibilidad, Auto-Ollama admite tanto el uso directo como la conversión de modelos en un formato eficiente para la implementación local.

Para cuantizar, consulte el nuevo paquete llamado Auto-Quantllm ⚡️. Actualmente está en desarrollo, pero su objetivo es proporcionar un enfoque simplificado y fácil de usar para cuantificar modelos de idiomas grandes (LLM) con diferentes métodos de cuantización.

Empezando

Instalación

Clon el repositorio para comenzar con Auto-Ollama:

git clone https://github.com/monk1337/auto-ollama.git
cd auto-ollama

Recorrido rápido

Ejecutando auto-ollama Use el script autollama.sh para inferir rápidamente LLMS. Este script requiere el nombre del modelo y el nombre de archivo cuantificado como argumentos.

 # Deploy Large Language Models (LLMs) locally with Auto-Ollama
# Usage:
# ./scripts/autollama.sh -m <model path> -g <gguf file name>


# Example command:
./scripts/autollama.sh -m TheBloke/MistralLite-7B-GGUF -g mistrallite.Q4_K_M.gguf

Manejo de modelos no cuantizados con autogguf

Si su modelo deseado no está disponible en un formato cuantificado adecuado para la implementación local, Auto-Lockama ofrece la utilidad AutoGguf. Esta herramienta puede convertir cualquier modelo de cara abrazada en el formato GGUF y cargarlo en el Hub Model de la cara abrazada.

 # Convert your Hugging Face model to GGUF format for local deployment
# Usage:
# ./scripts/autogguf.sh -m <MODEL_ID> [-u USERNAME] [-t TOKEN] [-q QUANTIZATION_METHODS]

# Example command:
./scripts/autogguf.sh -m unsloth/gemma-2b

Más opciones

 # if want to upload the gguf model to hub after the conversion, provide the user and token
# Example command:
./scripts/autogguf.sh -m unsloth/gemma-2b -u user_name -t hf_token


# if wants to provide QUANTIZATION_METHODS
# Example command:
./scripts/autogguf.sh -m unsloth/gemma-2b -u user_name -t hf_token -q " q4_k_m,q5_k_m "

Recomendaciones de cuantificación

Use Q5_K_M para el mejor saldo de recursos de rendimiento.
Q4_K_M es una buena opción si necesita guardar la memoria.
Las versiones K_M generalmente funcionan mejor que K_S.

Apoyo y contribuciones

Para problemas, sugerencias o contribuciones, abra un problema o retire la solicitud en el repositorio de GitHub. ¡Damos la bienvenida a las contribuciones de la comunidad para mejorar aún más el auto-lama!

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-09-02
tamaño 13.03KB
Proviene de Github

Aplicaciones relacionadas

ollama dl

2024-11-10
ComfyUI_Auto_Caption

2024-11-06
auto round

2024-11-06
Versión china de fusión automática

2023-11-28
Paquete de instalación de Auto Life I Brasil

2023-03-16
Magnate del concesionario de automóviles

2022-08-20

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo