
Booster ตามพจนานุกรม Merriam-Webster:
Booster รุ่นใหญ่มีจุดมุ่งหมายที่จะเป็นตัวเร่งการอนุมาน LLM ที่เรียบง่ายและยิ่งใหญ่สำหรับผู้ที่ต้องการปรับขนาด GPTs ภายในสภาพแวดล้อมการผลิตหรือเพียงแค่ทดลองกับแบบจำลองด้วยตัวเอง
ภายในเดือนแรกของการพัฒนา llama.go ฉันรู้สึกตกใจอย่างแท้จริงว่าโครงการ GGML.CPP ดั้งเดิมทำให้ชัดเจนมาก - ไม่มีข้อ จำกัด สำหรับคนที่มีความสามารถในการนำคุณสมบัติที่น่าเหลือเชื่อและย้ายไปสู่อนาคต AI
ดังนั้นฉันจึงตัดสินใจที่จะเริ่มโครงการใหม่ที่ Best-in-class C ++ / CUDA Core จะถูกฝังลงในเซิร์ฟเวอร์ Golang Mighty พร้อมสำหรับการอนุมานที่แข็งแกร่งและมีประสิทธิภาพในขนาดใหญ่ภายในสภาพแวดล้อมการผลิตจริง
Booster (และยังคง) พัฒนาบน Mac ด้วยโปรเซสเซอร์ Apple Silicon M1 ดังนั้นมันจึงเป็นเรื่องง่ายจริงๆ:
make macทำตามขั้นตอนที่ 1 และขั้นตอนที่ 2 แล้วทำ!
Ubuntu ขั้นตอนที่ 1: ติดตั้งคอมไพเลอร์ C ++ และ Golang รวมถึงไลบรารีนักพัฒนาบางคน
sudo apt update -y && sudo apt upgrade -y &&
apt install -y git git-lfs make build-essential &&
wget https://golang.org/dl/go1.21.5.linux-amd64.tar.gz &&
tar -xf go1.21.5.linux-amd64.tar.gz -C /usr/local &&
rm go1.21.5.linux-amd64.tar.gz &&
echo 'export PATH="${PATH}:/usr/local/go/bin"' >> ~/.bashrc && source ~/.bashrc
Ubuntu ขั้นตอนที่ 2: ติดตั้งไดรเวอร์ Nvidia และ CUDA Toolkit 12.2 พร้อม NVCC
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin &&
sudo mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600 &&
sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/3bf863cc.pub &&
sudo add-apt-repository "deb http://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/ /" &&
sudo apt update -y &&
sudo apt install -y cuda-toolkit-12-2
ตอนนี้คุณพร้อมที่จะร็อค!
make cudaคุณผ่านขั้นตอนด้านล่าง:
make clean && make macwget https://huggingface.co/NousResearch/Hermes-2-Pro-Llama-3-8B-GGUF/resolve/main/Hermes-2-Pro-Llama-3-8B-Q4_K_M.ggufid: mac
host: localhost
port: 8080
log: booster.log
deadline: 180
pods:
gpu:
model: hermes
prompt: chat
sampling: janus
threads: 1
gpus: [ 100 ]
batch: 512
models:
hermes:
name: Hermes2 Pro 8B
path: ~ /models/Hermes-2-Pro-Llama-3-8B-Q4_K_M.gguf
context: 8K
predict: 1K
prompts:
chat:
locale: en_US
prompt: " Today is {DATE}. You are virtual assistant. Please answer the question. "
system: " <|im_start|>systemn{PROMPT}<|im_end|> "
user: " n<|im_start|>usern{USER}<|im_end|> "
assistant: " n<|im_start|>assistantn{ASSISTANT}<|im_end|> "
samplings:
janus:
janus: 1
depth: 200
scale: 0.97
hi: 0.99
lo: 0.96เปิดตัวบูสเตอร์ในโหมดอินเทอร์แอคทีฟเพื่อแชทกับรุ่น:
./boosterเปิดตัวบูสเตอร์เป็นเซิร์ฟเวอร์เพื่อจัดการจุดสิ้นสุด API ทั้งหมดและแสดงข้อมูลการดีบัก:
./booster --server --debughttp://localhost:8080/jobs {
" id " : " 5fb8ebd0-e0c9-4759-8f7d-35590f6c9fc6 " ,
" prompt " : " Who are you? "
}http://localhost:8080/jobs/5fb8ebd0-e0c9-4759-8f7d-35590f6c9fc6 {
{
" id " : " 5fb8ebd0-e0c9-4759-8f7d-35590f6c9f77 " ,
" output " : " I'm a virtual assistant. " ,
" prompt " : " Who are you? " ,
" status " : " finished "
}
}booster.service เกี่ยวกับวิธีการสร้างบริการ Daemond จากเซิร์ฟเวอร์ API นี้