auto ollama
1.0.0
通过单个命令在本地推理或量化大型语言模型(LLMS)
Auto-ollama是一种工具包,旨在直接在本地环境上直接简化大型语言模型(LLM)的推理或量化。为了易于使用和灵活性,自动 - 颂歌支持直接使用和将模型转换为有效的本地部署格式。
要进行量化,请查看称为Auto-Quantllm⚡️的新软件包。它目前正在开发中,但它旨在提供一种流线型且用户友好的方法来使用不同的量化方法量化大型语言模型(LLMS)。
克隆存储库以开始使用Auto-ollama:
git clone https://github.com/monk1337/auto-ollama.git
cd auto-ollama运行Auto-ollama使用autollama.sh脚本快速推断LLM。此脚本需要模型名称和量化的文件名作为参数。
# Deploy Large Language Models (LLMs) locally with Auto-Ollama
# Usage:
# ./scripts/autollama.sh -m <model path> -g <gguf file name>
# Example command:
./scripts/autollama.sh -m TheBloke/MistralLite-7B-GGUF -g mistrallite.Q4_K_M.gguf如果您所需的型号不适合适用于本地部署的量化格式,则Auto-ollama提供了自动型实用程序。该工具可以将任何拥抱的面部模型转换为GGUF格式,并将其上传到拥抱的面部模型中心。
# Convert your Hugging Face model to GGUF format for local deployment
# Usage:
# ./scripts/autogguf.sh -m <MODEL_ID> [-u USERNAME] [-t TOKEN] [-q QUANTIZATION_METHODS]
# Example command:
./scripts/autogguf.sh -m unsloth/gemma-2b # if want to upload the gguf model to hub after the conversion, provide the user and token
# Example command:
./scripts/autogguf.sh -m unsloth/gemma-2b -u user_name -t hf_token
# if wants to provide QUANTIZATION_METHODS
# Example command:
./scripts/autogguf.sh -m unsloth/gemma-2b -u user_name -t hf_token -q " q4_k_m,q5_k_m " 有关问题,建议或贡献,请在GitHub存储库中打开问题或提取请求。我们欢迎社区的贡献使自动绿色变得更好!