
Бустер , согласно словару Merriam-Webster:
Большая модель Booster стремится стать простым и могущественным ускорителем вывода LLM как для тех, кому необходимо масштабировать GPT в производственной среде, или просто экспериментировать с собственными моделями.
В течение первого месяца Llama.go Development я был буквально шокирован тем, как оригинальный проект GGML.CPP прояснил его - нет ограничений для талантливых людей на то, чтобы принести удивительные функции и перемещение в будущее ИИ.
Поэтому я решил начать новый проект, в котором лучший в своем классе C ++ / Cuda Core будет встроен в Mighty Golang Server, готовую к надежному и эффективному выводу в крупномасштабных в реальных производственных средах.
Бустер был (и все еще) разработан на Mac с процессором Apple Silicon M1, так что это действительно простой Peasy:
make macСледуйте шагу 1 и шагу 2, затем просто сделайте!
Ubuntu Шаг 1: Установите компиляторы C ++ и Golang, а также некоторые библиотеки разработчиков
sudo apt update -y && sudo apt upgrade -y &&
apt install -y git git-lfs make build-essential &&
wget https://golang.org/dl/go1.21.5.linux-amd64.tar.gz &&
tar -xf go1.21.5.linux-amd64.tar.gz -C /usr/local &&
rm go1.21.5.linux-amd64.tar.gz &&
echo 'export PATH="${PATH}:/usr/local/go/bin"' >> ~/.bashrc && source ~/.bashrc
Ubuntu Шаг 2: Установите драйверы NVIDIA и инструментарий CUDA 12.2 с NVCC
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin &&
sudo mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600 &&
sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/3bf863cc.pub &&
sudo add-apt-repository "deb http://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/ /" &&
sudo apt update -y &&
sudo apt install -y cuda-toolkit-12-2
Теперь вы готовы к рок!
make cudaВы проходите через шаги ниже:
make clean && make macwget https://huggingface.co/NousResearch/Hermes-2-Pro-Llama-3-8B-GGUF/resolve/main/Hermes-2-Pro-Llama-3-8B-Q4_K_M.ggufid: mac
host: localhost
port: 8080
log: booster.log
deadline: 180
pods:
gpu:
model: hermes
prompt: chat
sampling: janus
threads: 1
gpus: [ 100 ]
batch: 512
models:
hermes:
name: Hermes2 Pro 8B
path: ~ /models/Hermes-2-Pro-Llama-3-8B-Q4_K_M.gguf
context: 8K
predict: 1K
prompts:
chat:
locale: en_US
prompt: " Today is {DATE}. You are virtual assistant. Please answer the question. "
system: " <|im_start|>systemn{PROMPT}<|im_end|> "
user: " n<|im_start|>usern{USER}<|im_end|> "
assistant: " n<|im_start|>assistantn{ASSISTANT}<|im_end|> "
samplings:
janus:
janus: 1
depth: 200
scale: 0.97
hi: 0.99
lo: 0.96Запустить Booster в интерактивном режиме, чтобы просто общаться с моделью:
./boosterЗапуск Booster как сервер для обработки всех конечных точек API и показать информацию отладки:
./booster --server --debughttp://localhost:8080/jobs {
" id " : " 5fb8ebd0-e0c9-4759-8f7d-35590f6c9fc6 " ,
" prompt " : " Who are you? "
}http://localhost:8080/jobs/5fb8ebd0-e0c9-4759-8f7d-35590f6c9fc6 Результаты с Native HTTP. {
{
" id " : " 5fb8ebd0-e0c9-4759-8f7d-35590f6c9f77 " ,
" output " : " I'm a virtual assistant. " ,
" prompt " : " Who are you? " ,
" status " : " finished "
}
}booster.service о том, как создать службу Daemond из этого сервера API.