ดาวน์โหลด booster - ดาวน์โหลดซอร์สโค้ด booster

booster

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

Booster ตามพจนานุกรม Merriam-Webster:

อุปกรณ์เสริมสำหรับการเพิ่มกำลังพลังแรงดันหรือประสิทธิผล
ขั้นตอนแรกของจรวดหลายขั้นตอนที่ให้แรงผลักดันสำหรับการเปิดตัวและส่วนแรกของเที่ยวบิน

Booster รุ่นใหญ่มีจุดมุ่งหมายที่จะเป็นตัวเร่งการอนุมาน LLM ที่เรียบง่ายและยิ่งใหญ่สำหรับผู้ที่ต้องการปรับขนาด GPTs ภายในสภาพแวดล้อมการผลิตหรือเพียงแค่ทดลองกับแบบจำลองด้วยตัวเอง

มหาอำนาจ

สร้างขึ้นด้วยประสิทธิภาพและการปรับขนาดในใจ ขอบคุณ Golang และ C ++
ไม่มีปัญหาเกี่ยวกับการพึ่งพา Python อีกต่อไป
การอนุมาน CPU เท่านั้นหากจำเป็น : Intel หรือ AMD X64, ARM64 และ Apple Silicon ใด ๆ
รองรับ GPU เช่นกัน: Nvidia Cuda, Apple Metal, แม้แต่การ์ด OpenCl
แยกโมเดลขนาดใหญ่จริงๆระหว่าง GPU จำนวนมาก ( Warp Llama 70b กับ 2X RTX 3090 )
ประสิทธิภาพที่ยอดเยี่ยมในเครื่องซีพียูเท่านั้นที่ รวดเร็วเหมือนการอนุมานนรกบนสัตว์ประหลาดที่มี GPU แบบเนื้อวัว
ทั้งรุ่น FP16/FP32 ทั่วไปและรุ่นที่เป็นปริมาณได้รับการสนับสนุน - 4 บิตหินจริงๆ!
สถาปัตยกรรม LLM ยอดนิยม อยู่แล้ว: Llama , Mistral, Gemma, ฯลฯ ...
โบนัสพิเศษ: การสุ่มตัวอย่าง Sota Janus สำหรับการสร้างรหัสและภาษาอังกฤษที่ไม่ใช่ภาษาอังกฤษ

แรงจูงใจ

ภายในเดือนแรกของการพัฒนา llama.go ฉันรู้สึกตกใจอย่างแท้จริงว่าโครงการ GGML.CPP ดั้งเดิมทำให้ชัดเจนมาก - ไม่มีข้อ จำกัด สำหรับคนที่มีความสามารถในการนำคุณสมบัติที่น่าเหลือเชื่อและย้ายไปสู่อนาคต AI

ดังนั้นฉันจึงตัดสินใจที่จะเริ่มโครงการใหม่ที่ Best-in-class C ++ / CUDA Core จะถูกฝังลงในเซิร์ฟเวอร์ Golang Mighty พร้อมสำหรับการอนุมานที่แข็งแกร่งและมีประสิทธิภาพในขนาดใหญ่ภายในสภาพแวดล้อมการผลิตจริง

ROADMAP V3 - Summer'24

Rebrand Project อีกครั้ง :) Collider => Booster
สนับสนุนการสนับสนุน Llama V3 และ V3.1
Openai API แชทเสร็จสิ้นจุดสิ้นสุดที่เข้ากันได้
จุดสิ้นสุดที่เข้ากันได้ของ Ollama
โหมดอินเทอร์แอคทีฟสำหรับการแชทจากบรรทัดคำสั่ง
อัปเดต Janus Sampling สำหรับ Llama-3
... และในที่สุดก็เปิดตัว V3!

V3+ ROADMAP - FALL'24

การบูรณาการที่กว้างขึ้นกับระบบนิเวศของ Ollama
บริบทที่ชาญฉลาดขึ้นเมื่อถึงขีด จำกัด
เว็บฝังตัว UI โดยไม่มีการพึ่งพาภายนอก
ไบนารี Windows ดั้งเดิม
Prebuilt Binaries สำหรับทุกแพลตฟอร์ม
รองรับการอนุมานแบบจำลองหลายโมเดล LLAVA
ความครอบคลุมการทดสอบรหัสที่ดีขึ้น
การคำนวณความงุนงงมีประโยชน์สำหรับการเปรียบเทียบ

วิธีการสร้างบน Mac?

Booster (และยังคง) พัฒนาบน Mac ด้วยโปรเซสเซอร์ Apple Silicon M1 ดังนั้นมันจึงเป็นเรื่องง่ายจริงๆ:

make mac

วิธีการรวบรวม Cuda บน Ubuntu?

ทำตามขั้นตอนที่ 1 และขั้นตอนที่ 2 แล้วทำ!

Ubuntu ขั้นตอนที่ 1: ติดตั้งคอมไพเลอร์ C ++ และ Golang รวมถึงไลบรารีนักพัฒนาบางคน

 sudo apt update -y && sudo apt upgrade -y && 
apt install -y git git-lfs make build-essential && 
wget https://golang.org/dl/go1.21.5.linux-amd64.tar.gz && 
tar -xf go1.21.5.linux-amd64.tar.gz -C /usr/local && 
rm go1.21.5.linux-amd64.tar.gz && 
echo 'export PATH="${PATH}:/usr/local/go/bin"' >> ~/.bashrc && source ~/.bashrc

Ubuntu ขั้นตอนที่ 2: ติดตั้งไดรเวอร์ Nvidia และ CUDA Toolkit 12.2 พร้อม NVCC

 wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin && 
sudo mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600 && 
sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/3bf863cc.pub && 
sudo add-apt-repository "deb http://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/ /" && 
sudo apt update -y && 
sudo apt install -y cuda-toolkit-12-2

ตอนนี้คุณพร้อมที่จะร็อค!

make cuda

วิธีการวิ่ง?

คุณผ่านขั้นตอนด้านล่าง:

สร้างเซิร์ฟเวอร์จากแหล่งที่มา [การอนุมาน MAC เป็นตัวอย่าง]

make clean && make mac

ดาวน์โหลดโมเดลเช่น [Hermes 2 Pro] ตาม [LLAMA-V3-8B] quantized เป็นรูปแบบ GGUF Q4KM:

wget https://huggingface.co/NousResearch/Hermes-2-Pro-Llama-3-8B-GGUF/resolve/main/Hermes-2-Pro-Llama-3-8B-Q4_K_M.gguf

สร้างไฟล์กำหนดค่าและวางไว้ในไดเรกทอรีเดียวกัน [ดู config.sample.yaml]

id: mac
host: localhost
port: 8080
log: booster.log
deadline: 180

pods:

  gpu:
    model: hermes
    prompt: chat
    sampling: janus
    threads: 1
    gpus: [ 100 ]
    batch: 512

models:

  hermes:
    name: Hermes2 Pro 8B
    path: ~ /models/Hermes-2-Pro-Llama-3-8B-Q4_K_M.gguf
    context: 8K
    predict: 1K

prompts:

  chat:
    locale: en_US
    prompt: " Today is {DATE}. You are virtual assistant. Please answer the question. "
    system: " <|im_start|>systemn{PROMPT}<|im_end|> "
    user: " n<|im_start|>usern{USER}<|im_end|> "
    assistant: " n<|im_start|>assistantn{ASSISTANT}<|im_end|> "

samplings:

  janus:
    janus: 1
    depth: 200
    scale: 0.97
    hi: 0.99
    lo: 0.96

เมื่อเสร็จแล้วให้เริ่มเซิร์ฟเวอร์ด้วยการเปิดใช้งานการดีบักเพื่อให้แน่ใจว่าทำงานได้

เปิดตัวบูสเตอร์ในโหมดอินเทอร์แอคทีฟเพื่อแชทกับรุ่น:

./booster

เปิดตัวบูสเตอร์เป็นเซิร์ฟเวอร์เพื่อจัดการจุดสิ้นสุด API ทั้งหมดและแสดงข้อมูลการดีบัก:

./booster --server --debug

ตอนนี้ใช้ Booster กับ Ollama/Openai API หรือ Post JSON ไปยัง Native Async API http://localhost:8080/jobs

{
    " id " : " 5fb8ebd0-e0c9-4759-8f7d-35590f6c9fc6 " ,
    " prompt " : " Who are you? "
}

ดูผลลัพธ์ที่มี HTTP ดั้งเดิมไปที่ Native Async API http://localhost:8080/jobs/5fb8ebd0-e0c9-4759-8f7d-35590f6c9fc6

{
{
    " id " : " 5fb8ebd0-e0c9-4759-8f7d-35590f6c9f77 " ,
    " output " : " I'm a virtual assistant. " ,
    " prompt " : " Who are you? " ,
    " status " : " finished "
}
}

ดูคำแนะนำภายในไฟล์ booster.service เกี่ยวกับวิธีการสร้างบริการ Daemond จากเซิร์ฟเวอร์ API นี้

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-03-05
ขนาด 2.16MB
มาจาก Github

แอปที่เกี่ยวข้อง

เกมบูสเตอร์

2023-05-30

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด

เมื่อใดจะมีการแลกเปลี่ยนและ Booster Packs ใหม่ให้กับ Pokemon TCG Pocket?
2024-11-17