Inferensi atau Kuantisasi Model Bahasa Besar (LLM) secara lokal dengan perintah tunggal
Auto-ollama adalah toolkit yang dirancang untuk menyederhanakan inferensi atau kuantisasi model bahasa besar (LLM) secara langsung di lingkungan lokal Anda. Dengan penekanan pada kemudahan penggunaan dan fleksibilitas, Auto-Ollama mendukung penggunaan langsung dan konversi model menjadi format yang efisien untuk penyebaran lokal.
Untuk kuantisasi, lihat paket baru yang disebut Auto-Quantllm ⚡️. Saat ini sedang dikembangkan, tetapi bertujuan untuk memberikan pendekatan yang ramping dan ramah pengguna untuk mengukur model bahasa besar (LLM) dengan metode kuantisasi yang berbeda.
Klon Repositori untuk Memulai dengan Auto-Ollama:
git clone https://github.com/monk1337/auto-ollama.git
cd auto-ollamaMenjalankan auto-ollama Gunakan skrip autollama.sh untuk dengan cepat inferensi LLMS. Script ini membutuhkan nama model dan nama file terkuantisasi sebagai argumen.
# Deploy Large Language Models (LLMs) locally with Auto-Ollama
# Usage:
# ./scripts/autollama.sh -m <model path> -g <gguf file name>
# Example command:
./scripts/autollama.sh -m TheBloke/MistralLite-7B-GGUF -g mistrallite.Q4_K_M.ggufJika model yang Anda inginkan tidak tersedia dalam format terkuantisasi yang cocok untuk penyebaran lokal, Auto-Ollama menawarkan utilitas autogguf. Alat ini dapat mengubah model wajah pemeluk apa pun menjadi format GGUF dan mengunggahnya ke hub Model Face Hugging.
# Convert your Hugging Face model to GGUF format for local deployment
# Usage:
# ./scripts/autogguf.sh -m <MODEL_ID> [-u USERNAME] [-t TOKEN] [-q QUANTIZATION_METHODS]
# Example command:
./scripts/autogguf.sh -m unsloth/gemma-2b # if want to upload the gguf model to hub after the conversion, provide the user and token
# Example command:
./scripts/autogguf.sh -m unsloth/gemma-2b -u user_name -t hf_token
# if wants to provide QUANTIZATION_METHODS
# Example command:
./scripts/autogguf.sh -m unsloth/gemma-2b -u user_name -t hf_token -q " q4_k_m,q5_k_m " Untuk masalah, saran, atau kontribusi, silakan buka masalah atau tarik permintaan di repositori GitHub. Kami menyambut kontribusi dari komunitas untuk membuat auto-ulama menjadi lebih baik!