Téléchargement auto ollama - Téléchargement du code source auto ollama

auto ollama

Code Source AI

1.0.0

Télécharger

Auto-allama et automatique ⚡️

Inférence ou quantifier les modèles de langage grand (LLMS) localement avec une seule commande

Aperçu

L'auto-allama est une boîte à outils conçue pour simplifier l'inférence ou la quantification des modèles de grande langue (LLM) directement sur votre environnement local. En mettant l'accent sur la facilité d'utilisation et la flexibilité, l'auto-allama prend en charge l'utilisation directe et la conversion des modèles en un format efficace pour le déploiement local.

Pour la quantification, consultez le nouveau package appelé Auto-Quantllm ⚡️. Il est actuellement en cours de développement, mais il vise à fournir une approche rationalisée et conviviale pour quantifier les modèles de gros langues (LLM) avec différentes méthodes de quantification.

Commencer

Installation

Clone le référentiel pour commencer avec l'auto-allame:

git clone https://github.com/monk1337/auto-ollama.git
cd auto-ollama

Tournée rapide

L'exécution de l'allama automatique utilise le script Autollama.sh pour inférer rapidement les LLMS. Ce script nécessite le nom du modèle et le nom de fichier quantifié comme arguments.

 # Deploy Large Language Models (LLMs) locally with Auto-Ollama
# Usage:
# ./scripts/autollama.sh -m <model path> -g <gguf file name>


# Example command:
./scripts/autollama.sh -m TheBloke/MistralLite-7B-GGUF -g mistrallite.Q4_K_M.gguf

Gestion des modèles non quantifiés avec Autogguf

Si votre modèle souhaité n'est pas disponible dans un format quantifié adapté au déploiement local, l'auto-olma propose l'utilitaire Autogguf. Cet outil peut convertir n'importe quel modèle de visage étreint au format GGUF et le télécharger dans le moyeu de modèle de visage étreint.

 # Convert your Hugging Face model to GGUF format for local deployment
# Usage:
# ./scripts/autogguf.sh -m <MODEL_ID> [-u USERNAME] [-t TOKEN] [-q QUANTIZATION_METHODS]

# Example command:
./scripts/autogguf.sh -m unsloth/gemma-2b

Plus d'options

 # if want to upload the gguf model to hub after the conversion, provide the user and token
# Example command:
./scripts/autogguf.sh -m unsloth/gemma-2b -u user_name -t hf_token


# if wants to provide QUANTIZATION_METHODS
# Example command:
./scripts/autogguf.sh -m unsloth/gemma-2b -u user_name -t hf_token -q " q4_k_m,q5_k_m "

Recommandations de quantification

Utilisez Q5_K_M pour le meilleur équilibre des performances-ressources.
Q4_K_M est un bon choix si vous avez besoin d'enregistrer la mémoire.
Les versions K_M fonctionnent généralement mieux que K_S.

Soutien et contributions

Pour les problèmes, les suggestions ou les contributions, veuillez ouvrir une demande de problème ou de traction dans le référentiel GitHub. Nous accueillons les contributions de la communauté pour améliorer l'auto-allama!

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-09-02
taille 13.03KB
Provenant de Github

Applications connexes

ollama dl

2024-11-10
ComfyUI_Auto_Caption

2024-11-06
auto round

2024-11-06
Fusion automatique version chinoise

2023-11-28
Pack d'installation Auto Life I Brésil

2023-03-16
Magnat du concessionnaire automobile

2022-08-20

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout