Вывод или квантовать большие языковые модели (LLMS) локально с помощью одной команды
Auto-Ollama-это инструментарий, предназначенный для упрощения вывода или квантования моделей крупных языков (LLMS) непосредственно в вашей локальной среде. С акцентом на простоту использования и гибкости Auto-Ollama поддерживает как прямое использование, так и преобразование моделей в эффективный формат для локального развертывания.
Для квантования ознакомьтесь с новым пакетом под названием Auto-Quantllm ⚡. В настоящее время он находится в стадии разработки, но нацелена на то, чтобы обеспечить оптимизированный и удобный подход к квантованию моделей крупных языков (LLMS) с различными методами квантования.
Клонировать репозиторий, чтобы начать с Auto-Ollama:
git clone https://github.com/monk1337/auto-ollama.git
cd auto-ollamaЗапуск Auto-Ollama используйте сценарий Autollama.sh для быстрого вывода LLMS. Этот скрипт требует имени модели и квантового имени файла в качестве аргументов.
# Deploy Large Language Models (LLMs) locally with Auto-Ollama
# Usage:
# ./scripts/autollama.sh -m <model path> -g <gguf file name>
# Example command:
./scripts/autollama.sh -m TheBloke/MistralLite-7B-GGUF -g mistrallite.Q4_K_M.ggufЕсли ваша желаемая модель не доступна в квантованном формате, подходящем для локального развертывания, Auto-Ollama предлагает утилиту AutogGuf. Этот инструмент может преобразовать любую модель обнимающего лица в формат GGUF и загружать ее в концентратор модели обнимающего лица.
# Convert your Hugging Face model to GGUF format for local deployment
# Usage:
# ./scripts/autogguf.sh -m <MODEL_ID> [-u USERNAME] [-t TOKEN] [-q QUANTIZATION_METHODS]
# Example command:
./scripts/autogguf.sh -m unsloth/gemma-2b # if want to upload the gguf model to hub after the conversion, provide the user and token
# Example command:
./scripts/autogguf.sh -m unsloth/gemma-2b -u user_name -t hf_token
# if wants to provide QUANTIZATION_METHODS
# Example command:
./scripts/autogguf.sh -m unsloth/gemma-2b -u user_name -t hf_token -q " q4_k_m,q5_k_m " По вопросам, предложениям или вкладам, пожалуйста, откройте проблему или запрос на то, что в репозитории GitHub. Мы приветствуем вклад сообщества, чтобы сделать Auto-Ollama еще лучше!