booster Download - booster Source Code Download

booster

Autre code source

1.0.0

Télécharger

Booster , selon le dictionnaire Merriam-Webster:

un dispositif auxiliaire pour augmenter la force, la puissance, la pression ou l'efficacité
La première étape d'une fusée à plusieurs étages offrant une poussée pour le lancement et la partie initiale du vol

Le grand modèle de modèle vise à être un accélérateur d'inférence LLM simple et puissant à la fois pour ceux qui ont besoin d'étendre les GPT dans l'environnement de production ou simplement d'expérimenter les modèles seuls.

Superpuissances

Construit avec des performances et une mise à l'échelle grâce à Golang et C ++
Plus de problèmes avec les dépendances Python
Inférence CPU uniquement si nécessaire : Toute Intel ou AMD X64, ARM64 et Apple Silicon
GPUS soutenus également: Nvidia Cuda, Apple Metal, même les cartes OpenCL
Diviser les modèles vraiment grands entre un certain nombre de GPU ( Warp Llama 70b avec 2x RTX 3090 )
Excellentes performances sur les machines CPU uniquement, jeûne comme une inférence de l'enfer sur les monstres avec des GPU costauds
Les modèles réguliers FP16 / FP32 et leurs versions quantifiées sont prises en charge - 4 bits sont vraiment des rochers!
Architectures LLM populaires déjà là: Llama , Mistral, Gemma, etc ...
Bonus spécial: échantillonnage Sota Janus pour la génération de code et les langues non anglaises

Motivation

Au cours du premier mois de Llama.go Development, j'ai été littéralement choqué de la façon dont le projet GGML.CPP original a été très clair - il n'y a aucune limite pour les personnes talentueuses pour apporter des caractéristiques époustouflantes et passer à l'avenir de l'IA.

J'ai donc décidé de démarrer un nouveau projet où le meilleur noyau C ++ / CUDA de Cuda sera intégré à un serveur Golang puissant prêt pour une inférence robuste et performante à grande échelle dans des environnements de production réels.

V3 Feuille de route - Summer'24

Projet de rebrand à nouveau :) collider => booster
Prise en charge complète de Llama V3 et V3.1
Points de terminaison compatibles de l'achèvement de l'API OpenAI
Points de terminaison compatibles sur Olllama
Mode interactif pour discuter à partir de la ligne de commande
Mise à jour de l'échantillonnage de Janus pour Llama-3
... et enfin la sortie V3!

V3 + Feuille de route - Fall'24

Une intégration plus large avec l'écosystème olllaa
Le contexte plus intelligent s'étend lors de l'atteinte de ses limites
Ui Web intégré sans dépendances externes
Binaires de fenêtres indigènes
Binaires prédéfinis pour toutes les plateformes
Prise en charge des modèles multimodaux llava inférence
Meilleure couverture de test de code
Calcul de perplexité utile pour l'analyse comparative

Comment construire sur Mac?

Booster a été (et toujours) développé sur Mac avec le processeur Apple Silicon M1, donc c'est vraiment facile PEASY:

make mac

Comment compiler pour Cuda sur Ubuntu?

Suivez l'étape 1 et l'étape 2, puis faites-le!

Ubuntu Étape 1: Installez les compilateurs C ++ et Golang, ainsi que certaines bibliothèques de développeurs

 sudo apt update -y && sudo apt upgrade -y && 
apt install -y git git-lfs make build-essential && 
wget https://golang.org/dl/go1.21.5.linux-amd64.tar.gz && 
tar -xf go1.21.5.linux-amd64.tar.gz -C /usr/local && 
rm go1.21.5.linux-amd64.tar.gz && 
echo 'export PATH="${PATH}:/usr/local/go/bin"' >> ~/.bashrc && source ~/.bashrc

Ubuntu Étape 2: Installez les pilotes Nvidia et la boîte à outils CUDA 12.2 avec NVCC

 wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin && 
sudo mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600 && 
sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/3bf863cc.pub && 
sudo add-apt-repository "deb http://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/ /" && 
sudo apt update -y && 
sudo apt install -y cuda-toolkit-12-2

Maintenant, vous êtes prêt à basculer!

make cuda

Comment courir?

Vous parcourez les étapes ci-dessous:

Créez le serveur à partir des sources [Inférence Mac en tant qu'exemple]

make clean && make mac

Téléchargez le modèle, comme [Hermes 2 Pro] basé sur [LLAMA-V3-8B] Quantisé au format GGUF Q4KM:

wget https://huggingface.co/NousResearch/Hermes-2-Pro-Llama-3-8B-GGUF/resolve/main/Hermes-2-Pro-Llama-3-8B-Q4_K_M.gguf

Créez un fichier de configuration et placez-le au même répertoire [voir config.sample.yaml]

id: mac
host: localhost
port: 8080
log: booster.log
deadline: 180

pods:

  gpu:
    model: hermes
    prompt: chat
    sampling: janus
    threads: 1
    gpus: [ 100 ]
    batch: 512

models:

  hermes:
    name: Hermes2 Pro 8B
    path: ~ /models/Hermes-2-Pro-Llama-3-8B-Q4_K_M.gguf
    context: 8K
    predict: 1K

prompts:

  chat:
    locale: en_US
    prompt: " Today is {DATE}. You are virtual assistant. Please answer the question. "
    system: " <|im_start|>systemn{PROMPT}<|im_end|> "
    user: " n<|im_start|>usern{USER}<|im_end|> "
    assistant: " n<|im_start|>assistantn{ASSISTANT}<|im_end|> "

samplings:

  janus:
    janus: 1
    depth: 200
    scale: 0.97
    hi: 0.99
    lo: 0.96

Lorsque tout est terminé, démarrez le serveur avec un débogage activé pour s'assurer qu'il fonctionne

Lancez le booster en mode interactif pour simplement discuter avec le modèle:

./booster

Lancez Booster en tant que serveur pour gérer tous les points de terminaison de l'API et afficher les informations de débogage:

./booster --server --debug

Utilisez maintenant Booster avec une API Olllama / OpenAI ou Post JSON à API Async native http://localhost:8080/jobs

{
    " id " : " 5fb8ebd0-e0c9-4759-8f7d-35590f6c9fc6 " ,
    " prompt " : " Who are you? "
}

Voir les résultats avec HTTP natif Atteignez API Async natif http://localhost:8080/jobs/5fb8ebd0-e0c9-4759-8f7d-35590f6c9fc6

{
{
    " id " : " 5fb8ebd0-e0c9-4759-8f7d-35590f6c9f77 " ,
    " output " : " I'm a virtual assistant. " ,
    " prompt " : " Who are you? " ,
    " status " : " finished "
}
}

Voir les instructions dans le fichier booster.service sur la façon de créer un service Daemond à partir de ce serveur API.

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-03-05
taille 2.16MB
Provenant de Github

Applications connexes

Booster de jeu

2023-05-30

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout

Quand les échanges et les nouveaux boosters arriveront-ils sur Pokemon TCG Pocket ?
2024-11-17