Gemma est une famille de modèles ouverts de pointe légers construits à partir de la recherche et de la technologie utilisés pour créer des modèles Google Gemini. Ce sont des modèles de grande langue text-to-text et décodeur uniquement, disponibles en anglais, avec des poids ouverts, des variantes pré-formées et des variantes réglées par l'instruction. Pour plus de détails, veuillez consulter les liens suivants:
Il s'agit de la mise en œuvre officielle des modèles GEMMA. Nous fournissons des implémentations de modèle et d'inférence en utilisant à la fois Pytorch et Pytorch / XLA, et prenons en charge l'inférence en cours d'exécution sur CPU, GPU et TPU.
[26 juin] Soutenir Gemma v2. Vous pouvez trouver les points de contrôle sur Kaggle et le visage étreint
[9 avril] Prise en charge de Codegemma. Vous pouvez trouver les points de contrôle sur Kaggle et le visage étreint
[5 avril] Soutenir Gemma v1.1. Vous pouvez trouver les points de contrôle V1.1 sur Kaggle et le visage étreint.
Vous pouvez trouver les points de contrôle du modèle sur Kaggle ici.
Alternativement, vous pouvez trouver les points de contrôle du modèle sur le centre de face étreint ici. Pour télécharger les modèles, faites le référentiel du modèle du modèle d'intérêt et cliquez sur l'onglet Files and versions , et téléchargez les fichiers du modèle et du tokenizer. Pour le téléchargement programmatique, si vous êtes installé dans huggingface_hub , vous pouvez également s'exécuter:
huggingface-cli download google/gemma-7b-it-pytorch
Notez que vous pouvez choisir entre les variantes 2B, 2B V2, 7B, 7B INT8, 9B et 27B.
VARIANT=<2b or 7b or 9b or 27b>
CKPT_PATH=<Insert ckpt path here>
Suivez les étapes sur https://ai.google.dev/gemma/docs/pytorch_gemma.
Préalable: assurez-vous de configurer correctement l'autorisation Docker en tant qu'utilisateur non racine.
sudo usermod -aG docker $USER
newgrp dockerDOCKER_URI=gemma: ${USER}
docker build -f docker/Dockerfile ./ -t ${DOCKER_URI}PROMPT= " The meaning of life is "
docker run -t --rm
-v ${CKPT_PATH} :/tmp/ckpt
${DOCKER_URI}
python scripts/run.py
--ckpt=/tmp/ckpt
--variant= " ${VARIANT} "
--prompt= " ${PROMPT} "
# add `--quant` for the int8 quantized model.PROMPT= " The meaning of life is "
docker run -t --rm
--gpus all
-v ${CKPT_PATH} :/tmp/ckpt
${DOCKER_URI}
python scripts/run.py
--device=cuda
--ckpt=/tmp/ckpt
--variant= " ${VARIANT} "
--prompt= " ${PROMPT} "
# add `--quant` for the int8 quantized model. DOCKER_URI=gemma_xla: ${USER}
docker build -f docker/xla.Dockerfile ./ -t ${DOCKER_URI}DOCKER_URI=gemma_xla_gpu: ${USER}
docker build -f docker/xla_gpu.Dockerfile ./ -t ${DOCKER_URI}docker run -t --rm
--shm-size 4gb
-e PJRT_DEVICE=CPU
-v ${CKPT_PATH} :/tmp/ckpt
${DOCKER_URI}
python scripts/run_xla.py
--ckpt=/tmp/ckpt
--variant= " ${VARIANT} "
# add `--quant` for the int8 quantized model. Remarque: assurez-vous d'utiliser le conteneur Docker construit à partir de xla.Dockerfile .
docker run -t --rm
--shm-size 4gb
-e PJRT_DEVICE=TPU
-v ${CKPT_PATH} :/tmp/ckpt
${DOCKER_URI}
python scripts/run_xla.py
--ckpt=/tmp/ckpt
--variant= " ${VARIANT} "
# add `--quant` for the int8 quantized model. Remarque: assurez-vous d'utiliser le conteneur Docker construit à partir de xla_gpu.Dockerfile .
docker run -t --rm --privileged
--shm-size=16g --net=host --gpus all
-e USE_CUDA=1
-e PJRT_DEVICE=CUDA
-v ${CKPT_PATH} :/tmp/ckpt
${DOCKER_URI}
python scripts/run_xla.py
--ckpt=/tmp/ckpt
--variant= " ${VARIANT} "
# add `--quant` for the int8 quantized model. 99 Les jetons inutilisés sont réservés dans le modèle de tokenizer pré-entraîné pour aider à une formation / à un réglage plus efficace. Les jetons inutilisés sont dans le format de chaîne de <unused[0-98]> avec une plage d'ID de jeton de [7-105] .
"<unused0>": 7,
"<unused1>": 8,
"<unused2>": 9,
...
"<unused98>": 105,
Ce n'est pas un produit Google officiellement pris en charge.