booster下载 - booster源代码下载

booster

其他源码

1.0.0

下载

根据Merriam-Webster词典的说法， Booster ：

用于增加力，功率，压力或有效性的辅助装置
多阶段火箭的第一阶段为发射和飞行的初始部分提供了推力

对于需要在生产环境中扩展GPT或仅仅自行尝试模型的人来说，大型模型助推器的目标是成为一个简单而强大的LLM推理加速器。

超级大国

以性能和缩放为基础，感谢Golang和C ++
Python依赖性不再有问题
如果需要的话，仅CPU的推断：任何Intel或AMD X64，ARM64和Apple Silicon
GPU也得到了支持： NVIDIA CUDA，苹果金属，甚至OpenCl卡
在许多GPU之间拆分真正的大型型号（ Warp Llama 70B，带2X RTX 3090 ）
仅在CPU机器上表现出色，快速地推断了与GPU的怪物的怪物
支持常规的FP16/FP32型号及其量化版本 - 4位真正的岩石！
流行的LLM体系结构已经存在： Llama ，Mistral，Gemma等...
特殊奖金：Sota Janus采样代码生成和非英语语言

动机

在Llama的第一个月内，Go Development我对原始的GGML.CPP项目的看法感到震惊，这对才华横溢的人没有限制来带来令人振奋的功能并转向AI的未来。

因此，我决定启动一个新项目，其中一流的C ++ / CUDA Core将嵌入强大的Golang服务器中，以便在真实生产环境中大规模地进行强大的和表现推断。

V3路线图 - 夏季24

再次品牌项目:) Collider =>助推器
完整的Llama V3和V3.1支持
OpenAI API聊天完成兼容端点
Ollama兼容端点
从命令行聊天的交互式模式
更新Janus对Llama-3的采样
...最后V3发布！

V3+路线图 - 秋季24

与Ollama生态系统更广泛的整合
达到限制时，更智能的上下文扩展
没有外部依赖性的嵌入式Web UI
本地窗户二进制
所有平台的预构建二进制文件
支持LLAVA多模式推理
更好的代码测试覆盖范围
困惑计算可用于基准测试

如何在Mac上构建？

Booster（并且仍在）与Apple Silicon M1处理器一起在Mac上开发，因此，这确实很容易：

make mac

如何在Ubuntu上编译CUDA？

遵循步骤1和步骤2，然后进行！

Ubuntu步骤1：安装C ++和Golang编译器，以及一些开发人员库

 sudo apt update -y && sudo apt upgrade -y && 
apt install -y git git-lfs make build-essential && 
wget https://golang.org/dl/go1.21.5.linux-amd64.tar.gz && 
tar -xf go1.21.5.linux-amd64.tar.gz -C /usr/local && 
rm go1.21.5.linux-amd64.tar.gz && 
echo 'export PATH="${PATH}:/usr/local/go/bin"' >> ~/.bashrc && source ~/.bashrc

Ubuntu步骤2：使用NVCC安装NVIDIA驱动程序和CUDA工具包12.2

 wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin && 
sudo mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600 && 
sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/3bf863cc.pub && 
sudo add-apt-repository "deb http://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/ /" && 
sudo apt update -y && 
sudo apt install -y cuda-toolkit-12-2

现在您准备好摇滚了！

make cuda

如何运行？

您越过下面的步骤：

从源构建服务器[MAC推断为示例]

make clean && make mac

将模型下载，例如[Hermes 2 Pro]基于[Llama-V3-8B]量化为GGUF Q4公里格式的[Llama-V3-8B]：

wget https://huggingface.co/NousResearch/Hermes-2-Pro-Llama-3-8B-GGUF/resolve/main/Hermes-2-Pro-Llama-3-8B-Q4_K_M.gguf

创建配置文件并将其放在同一目录中[请参阅config.sample.yaml]

id: mac
host: localhost
port: 8080
log: booster.log
deadline: 180

pods:

  gpu:
    model: hermes
    prompt: chat
    sampling: janus
    threads: 1
    gpus: [ 100 ]
    batch: 512

models:

  hermes:
    name: Hermes2 Pro 8B
    path: ~ /models/Hermes-2-Pro-Llama-3-8B-Q4_K_M.gguf
    context: 8K
    predict: 1K

prompts:

  chat:
    locale: en_US
    prompt: " Today is {DATE}. You are virtual assistant. Please answer the question. "
    system: " <|im_start|>systemn{PROMPT}<|im_end|> "
    user: " n<|im_start|>usern{USER}<|im_end|> "
    assistant: " n<|im_start|>assistantn{ASSISTANT}<|im_end|> "

samplings:

  janus:
    janus: 1
    depth: 200
    scale: 0.97
    hi: 0.99
    lo: 0.96

完成所有操作后，使用DEBUG启动服务器可以确保其工作

以交互式模式启动助推器，仅与模型聊天：

./booster

启动助推器作为服务器处理所有API端点并显示调试信息：

./booster --server --debug

现在，将Booster与Ollama/OpenAI API一起使用，或将JSON邮政为本机ASYNC API http://localhost:8080/jobs

{
    " id " : " 5fb8ebd0-e0c9-4759-8f7d-35590f6c9fc6 " ,
    " prompt " : " Who are you? "
}

请参阅本机http的结果访问本地async api http://localhost:8080/jobs/5fb8ebd0-e0c9-4759-8f7d-35590f6c9fc6

{
{
    " id " : " 5fb8ebd0-e0c9-4759-8f7d-35590f6c9f77 " ,
    " output " : " I'm a virtual assistant. " ,
    " prompt " : " Who are you? " ,
    " status " : " finished "
}
}