Téléchargement transformers bloom inference - Téléchargement du code source transformers bloom inference

transformers bloom inference

Autre code source

1.0.0

Télécharger

Note

Ce référentiel a été archivé et n'est plus maintenu, car de nombreux cadres de service plus efficaces ont été publiés récemment comme VLLM et TGI.

Solutions d'inférence rapide pour Bloom

Ce repo fournit des démos et des packages pour effectuer des solutions d'inférence rapides pour Bloom. Certaines des solutions ont leurs propres référentiels, auquel cas un lien avec les référentiels correspondants est fourni à la place.

Solutions d'inférence pour Bloom 176b

Nous prenons en charge les huggingface accélérer et l'inférence profonde pour la génération.

Installer les packages requis:

pip install flask flask_api gunicorn pydantic accelerate huggingface_hub > =0.9.0 deepspeed > =0.7.3 deepspeed-mii==0.0.2

Vous pouvez également installer Deeppeed à partir de la source:

git clone https://github.com/microsoft/DeepSpeed
cd DeepSpeed
CFLAGS= " -I $CONDA_PREFIX /include/ " LDFLAGS= " -L $CONDA_PREFIX /lib/ " TORCH_CUDA_ARCH_LIST= " 7.0 " DS_BUILD_CPU_ADAM=1 DS_BUILD_AIO=1 DS_BUILD_UTILS=1 pip install -e . --global-option= " build_ext " --global-option= " -j8 " --no-cache -v --disable-pip-version-check

Tous les scripts fournis sont testés sur 8 GPU A100 80 Go pour Bloom 176B (FP16 / BF16) et 4 GPU A100 80 Go pour Bloom 176B (INT8). Ces scripts peuvent ne pas fonctionner pour d'autres modèles ou un nombre différent de GPU.

L'inférence DS est déployée à l'aide de la logique empruntée à Deeppeed Mii Library.

Remarque: Parfois, la mémoire GPU n'est pas libérée lorsque le déploiement de l'inférence DS se bloque. Vous pouvez libérer cette mémoire en exécutant killall python dans le terminal.

Pour utiliser Bloom quantifié, utilisez dtype = int8. En outre, modifiez le Model_name en Microsoft / Bloom-Deeppeed-Inference-Int8 pour Deeppeed-Inference. Pour HF Accelerate, aucun changement n'est nécessaire pour Model_name.

HF Accelerate utilise llm.int8 () et DS-Inference utilise le zéro pour la quantification post-formation.

Inférence de la floraison via la ligne de commande

Cela demande à générer_kwargs à chaque fois. Exemple: generate_kwargs =

{ "min_length" : 100 , "max_new_tokens" : 100 , "do_sample" : false }

Utilisation de HF Accélérer

python -m inference_server.cli --model_name bigscience/bloom --model_class AutoModelForCausalLM --dtype bf16 --deployment_framework hf_accelerate --generate_kwargs ' {"min_length": 100, "max_new_tokens": 100, "do_sample": false} '

Utilisation de l'inférence DS

python -m inference_server.cli --model_name microsoft/bloom-deepspeed-inference-fp16 --model_class AutoModelForCausalLM --dtype fp16 --deployment_framework ds_inference --generate_kwargs ' {"min_length": 100, "max_new_tokens": 100, "do_sample": false} '

Déploiement du serveur Bloom

Make <Model_name> peut être utilisé pour lancer un serveur de génération. Veuillez noter que la méthode de service est synchrone et que les utilisateurs doivent attendre dans la file d'attente jusqu'à ce que les demandes précédentes aient été traitées. Un exemple pour incendier des demandes de serveur est donné ici. Alternativey, un dockerfile est également fourni qui lance un serveur de génération sur le port 5000.

Une interface utilisateur interactive peut être lancée via la commande suivante pour se connecter au serveur de génération. L'URL par défaut de l'interface utilisateur est http://127.0.0.1:5001/ . Le model_name est juste utilisé par l'interface utilisateur pour vérifier si le modèle est un modèle de décodeur ou d'encodeur.

python -m ui --model_name bigscience/bloom

Cette commande lance l'interface utilisateur suivante pour jouer avec la génération. Désolé pour le design merdique. Indépendamment, mes compétences d'interface utilisateur ne vont que si loin. ???

Système de référence pour l'inférence Bloom

Utilisation de HF Accélérer

python -m inference_server.benchmark --model_name bigscience/bloom --model_class AutoModelForCausalLM --dtype bf16 --deployment_framework hf_accelerate --benchmark_cycles 5

Utilisation de l'inférence DS

deepspeed --num_gpus 8 --module inference_server.benchmark --model_name bigscience/bloom --model_class AutoModelForCausalLM --dtype fp16 --deployment_framework ds_inference --benchmark_cycles 5

Alternativement, pour charger le modèle plus rapidement:

deepspeed --num_gpus 8 --module inference_server.benchmark --model_name microsoft/bloom-deepspeed-inference-fp16 --model_class AutoModelForCausalLM --dtype fp16 --deployment_framework ds_inference --benchmark_cycles 5

Utilisation de DS Zero

deepspeed --num_gpus 8 --module inference_server.benchmark --model_name bigscience/bloom --model_class AutoModelForCausalLM --dtype bf16 --deployment_framework ds_zero --benchmark_cycles 5

Soutien

Si vous rencontrez des choses qui ne fonctionnent pas ou si vous avez d'autres questions, veuillez ouvrir un problème dans le backend correspondant:

Accélérer
Profonde vitesse
Deeppeed-zéro

S'il y a un problème spécifique avec l'un des scripts et non le backend seulement, veuillez ouvrir un problème ici et tag @ Mayank31398.

Autres solutions d'inférence

Solutions côté client

Solutions développées pour effectuer une grande inférence par lots localement:

Code HF personnalisé.

Jax:

Inférence de la floraison dans Jax

Solutions de serveur

Une solution développée pour être utilisée en mode serveur (c'est-à-dire la taille variée du lot, le taux de demande varié) peut être trouvé ici. Ceci est mis en œuvre en rouille.

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-04-17
taille 133.5KB
Provenant de Github

Applications connexes

Amy's Flower Shop jeu mobile version chinoise (Bloom Sort)

2024-05-25
jeu de tri bloom sans publicité

2024-02-20
Transformers : la guerre pour Cybertron

2022-08-19
Floraison

2022-08-19
Transformateurs : De

2022-08-18
Transformers : L'Ascension de l'étincelle sombre

2022-08-17

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout