auto ollama
1.0.0
通過單個命令在本地推理或量化大型語言模型(LLMS)
Auto-ollama是一種工具包,旨在直接在本地環境上直接簡化大型語言模型(LLM)的推理或量化。為了易於使用和靈活性,自動 - 頌歌支持直接使用和將模型轉換為有效的本地部署格式。
要進行量化,請查看稱為Auto-Quantllm⚡️的新軟件包。它目前正在開發中,但它旨在提供一種流線型且用戶友好的方法來使用不同的量化方法量化大型語言模型(LLMS)。
克隆存儲庫以開始使用Auto-ollama:
git clone https://github.com/monk1337/auto-ollama.git
cd auto-ollama運行Auto-ollama使用autollama.sh腳本快速推斷LLM。此腳本需要模型名稱和量化的文件名作為參數。
# Deploy Large Language Models (LLMs) locally with Auto-Ollama
# Usage:
# ./scripts/autollama.sh -m <model path> -g <gguf file name>
# Example command:
./scripts/autollama.sh -m TheBloke/MistralLite-7B-GGUF -g mistrallite.Q4_K_M.gguf如果您所需的型號不適合適用於本地部署的量化格式,則Auto-ollama提供了自動型實用程序。該工具可以將任何擁抱的面部模型轉換為GGUF格式,並將其上傳到擁抱的面部模型中心。
# Convert your Hugging Face model to GGUF format for local deployment
# Usage:
# ./scripts/autogguf.sh -m <MODEL_ID> [-u USERNAME] [-t TOKEN] [-q QUANTIZATION_METHODS]
# Example command:
./scripts/autogguf.sh -m unsloth/gemma-2b # if want to upload the gguf model to hub after the conversion, provide the user and token
# Example command:
./scripts/autogguf.sh -m unsloth/gemma-2b -u user_name -t hf_token
# if wants to provide QUANTIZATION_METHODS
# Example command:
./scripts/autogguf.sh -m unsloth/gemma-2b -u user_name -t hf_token -q " q4_k_m,q5_k_m " 有關問題,建議或貢獻,請在GitHub存儲庫中打開問題或提取請求。我們歡迎社區的貢獻使自動綠色變得更好!