скачать booster - скачать исходный код booster

booster

Другой исходный код

1.0.0

Скачать

Бустер , согласно словару Merriam-Webster:

вспомогательное устройство для увеличения силы, мощности, давления или эффективности
Первый этап многоступенчатой ракеты, обеспечивающей стремление к запуску, и начальная часть полета

Большая модель Booster стремится стать простым и могущественным ускорителем вывода LLM как для тех, кому необходимо масштабировать GPT в производственной среде, или просто экспериментировать с собственными моделями.

Суперспособности

Построен с учетом производительности и масштабирования, спасибо Голанг и C ++
Больше нет проблем с зависимостью от питона
При необходимости вывод только для процессора : любая Intel или AMD X64, ARM64 и Apple Silicon
Также поддерживаются графические процессоры: Nvidia cuda, Apple Metal, даже карты OpenCl
Сплит действительно большие модели между рядом графических процессоров ( Warp Llama 70b с 2x RTX 3090 )
Отличная производительность на машинах CPU, быстро, как ада, вывод на монстрах с мусистыми графическими процессорами
Обе регулярные модели FP16/FP32 и их квантовые версии поддерживаются - 4 -битные действительно камни!
Популярные архитектуры LLM уже есть: Llama , Mistral, Gemma и т. Д.
Специальный бонус: SOTA JANUS SAMPLING для генерации кодов и не английских языков

Мотивация

В течение первого месяца Llama.go Development я был буквально шокирован тем, как оригинальный проект GGML.CPP прояснил его - нет ограничений для талантливых людей на то, чтобы принести удивительные функции и перемещение в будущее ИИ.

Поэтому я решил начать новый проект, в котором лучший в своем классе C ++ / Cuda Core будет встроен в Mighty Golang Server, готовую к надежному и эффективному выводу в крупномасштабных в реальных производственных средах.

V3 Roadpamp - Summer'24

Повторный проект снова :) Collider => Booster
Полная поддержка Llama v3 и v3.1
OpenAI API -чат совместимые с конечными точками
Оллама совместимые с конечными точками
Интерактивный режим для чата из командной строки
Обновление Януса выборка для Llama-3
... и, наконец, релиз v3!

V3+ Roadmap - Fall'24

Более широкая интеграция с экосистемой Олламы
Более разумный контекст расширяется при достижении его пределов
Встроенный веб -интерфейс без внешних зависимостей
Нативные окна двоичные файлы
Предварительно построенные двоичные файлы для всех платформ
Поддержка лолявы мультимодальных моделей вывод
Лучшее покрытие теста кода
Расчет о сбытости полезны для сравнительного анализа

Как построить на Mac?

Бустер был (и все еще) разработан на Mac с процессором Apple Silicon M1, так что это действительно простой Peasy:

make mac

Как компилировать для CUDA на Ubuntu?

Следуйте шагу 1 и шагу 2, затем просто сделайте!

Ubuntu Шаг 1: Установите компиляторы C ++ и Golang, а также некоторые библиотеки разработчиков

 sudo apt update -y && sudo apt upgrade -y && 
apt install -y git git-lfs make build-essential && 
wget https://golang.org/dl/go1.21.5.linux-amd64.tar.gz && 
tar -xf go1.21.5.linux-amd64.tar.gz -C /usr/local && 
rm go1.21.5.linux-amd64.tar.gz && 
echo 'export PATH="${PATH}:/usr/local/go/bin"' >> ~/.bashrc && source ~/.bashrc

Ubuntu Шаг 2: Установите драйверы NVIDIA и инструментарий CUDA 12.2 с NVCC

 wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin && 
sudo mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600 && 
sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/3bf863cc.pub && 
sudo add-apt-repository "deb http://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/ /" && 
sudo apt update -y && 
sudo apt install -y cuda-toolkit-12-2

Теперь вы готовы к рок!

make cuda

Как бежать?

Вы проходите через шаги ниже:

Создайте сервер из источников [вывод Mac в качестве примера]

make clean && make mac

Загрузите модель, например, [Hermes 2 Pro] на основе [llama-v3-8b] квантован в формат GGUF Q4KM:

wget https://huggingface.co/NousResearch/Hermes-2-Pro-Llama-3-8B-GGUF/resolve/main/Hermes-2-Pro-Llama-3-8B-Q4_K_M.gguf

Создайте файл конфигурации и поместите его в тот же каталог [см. Config.sample.yaml]

id: mac
host: localhost
port: 8080
log: booster.log
deadline: 180

pods:

  gpu:
    model: hermes
    prompt: chat
    sampling: janus
    threads: 1
    gpus: [ 100 ]
    batch: 512

models:

  hermes:
    name: Hermes2 Pro 8B
    path: ~ /models/Hermes-2-Pro-Llama-3-8B-Q4_K_M.gguf
    context: 8K
    predict: 1K

prompts:

  chat:
    locale: en_US
    prompt: " Today is {DATE}. You are virtual assistant. Please answer the question. "
    system: " <|im_start|>systemn{PROMPT}<|im_end|> "
    user: " n<|im_start|>usern{USER}<|im_end|> "
    assistant: " n<|im_start|>assistantn{ASSISTANT}<|im_end|> "

samplings:

  janus:
    janus: 1
    depth: 200
    scale: 0.97
    hi: 0.99
    lo: 0.96

Когда все будет сделано, запустите сервер с отладочной отладкой, чтобы убедиться, что он работает

Запустить Booster в интерактивном режиме, чтобы просто общаться с моделью:

./booster

Запуск Booster как сервер для обработки всех конечных точек API и показать информацию отладки:

./booster --server --debug

Теперь используйте Booster с Ollama/OpenAI API или Post JSON для Native Async API http://localhost:8080/jobs

{
    " id " : " 5fb8ebd0-e0c9-4759-8f7d-35590f6c9fc6 " ,
    " prompt " : " Who are you? "
}

См http://localhost:8080/jobs/5fb8ebd0-e0c9-4759-8f7d-35590f6c9fc6 Результаты с Native HTTP.

{
{
    " id " : " 5fb8ebd0-e0c9-4759-8f7d-35590f6c9f77 " ,
    " output " : " I'm a virtual assistant. " ,
    " prompt " : " Who are you? " ,
    " status " : " finished "
}
}