gemma_pytorch Télécharger - gemma_pytorch Code source Télécharger

gemma_pytorch

Python

1.0.0

Télécharger

Gemma à Pytorch

Gemma est une famille de modèles ouverts de pointe légers construits à partir de la recherche et de la technologie utilisés pour créer des modèles Google Gemini. Ce sont des modèles de grande langue text-to-text et décodeur uniquement, disponibles en anglais, avec des poids ouverts, des variantes pré-formées et des variantes réglées par l'instruction. Pour plus de détails, veuillez consulter les liens suivants:

Gemma sur Google AI
Gemma sur Kaggle
GEMMA ON VERTEX AI MODÈLE GARDIN

Il s'agit de la mise en œuvre officielle des modèles GEMMA. Nous fournissons des implémentations de modèle et d'inférence en utilisant à la fois Pytorch et Pytorch / XLA, et prenons en charge l'inférence en cours d'exécution sur CPU, GPU et TPU.

Mises à jour

[26 juin] Soutenir Gemma v2. Vous pouvez trouver les points de contrôle sur Kaggle et le visage étreint
[9 avril] Prise en charge de Codegemma. Vous pouvez trouver les points de contrôle sur Kaggle et le visage étreint
[5 avril] Soutenir Gemma v1.1. Vous pouvez trouver les points de contrôle V1.1 sur Kaggle et le visage étreint.

Télécharger le point de contrôle du modèle Gemma

Vous pouvez trouver les points de contrôle du modèle sur Kaggle ici.

Alternativement, vous pouvez trouver les points de contrôle du modèle sur le centre de face étreint ici. Pour télécharger les modèles, faites le référentiel du modèle du modèle d'intérêt et cliquez sur l'onglet Files and versions , et téléchargez les fichiers du modèle et du tokenizer. Pour le téléchargement programmatique, si vous êtes installé dans huggingface_hub , vous pouvez également s'exécuter:

 huggingface-cli download google/gemma-7b-it-pytorch

Notez que vous pouvez choisir entre les variantes 2B, 2B V2, 7B, 7B INT8, 9B et 27B.

 VARIANT=<2b or 7b or 9b or 27b>
CKPT_PATH=<Insert ckpt path here>

Essayez-le gratuitement sur Colab

Suivez les étapes sur https://ai.google.dev/gemma/docs/pytorch_gemma.

Essayez-le avec Pytorch

Préalable: assurez-vous de configurer correctement l'autorisation Docker en tant qu'utilisateur non racine.

sudo usermod -aG docker $USER
newgrp docker

Construisez l'image Docker.

DOCKER_URI=gemma: ${USER}

docker build -f docker/Dockerfile ./ -t ${DOCKER_URI}

Exécutez l'inférence Gemma sur CPU.

PROMPT= " The meaning of life is "

docker run -t --rm 
    -v ${CKPT_PATH} :/tmp/ckpt 
    ${DOCKER_URI} 
    python scripts/run.py 
    --ckpt=/tmp/ckpt 
    --variant= " ${VARIANT} " 
    --prompt= " ${PROMPT} "
    # add `--quant` for the int8 quantized model.

Exécutez l'inférence Gemma sur GPU.

PROMPT= " The meaning of life is "

docker run -t --rm 
    --gpus all 
    -v ${CKPT_PATH} :/tmp/ckpt 
    ${DOCKER_URI} 
    python scripts/run.py 
    --device=cuda 
    --ckpt=/tmp/ckpt 
    --variant= " ${VARIANT} " 
    --prompt= " ${PROMPT} "
    # add `--quant` for the int8 quantized model.

Essayez-le avec pytorch / xla

Construisez l'image Docker (CPU, TPU).

DOCKER_URI=gemma_xla: ${USER}

docker build -f docker/xla.Dockerfile ./ -t ${DOCKER_URI}

Construisez l'image Docker (GPU).

DOCKER_URI=gemma_xla_gpu: ${USER}

docker build -f docker/xla_gpu.Dockerfile ./ -t ${DOCKER_URI}

Exécutez l'inférence Gemma sur CPU.

docker run -t --rm 
    --shm-size 4gb 
    -e PJRT_DEVICE=CPU 
    -v ${CKPT_PATH} :/tmp/ckpt 
    ${DOCKER_URI} 
    python scripts/run_xla.py 
    --ckpt=/tmp/ckpt 
    --variant= " ${VARIANT} " 
    # add `--quant` for the int8 quantized model.

Exécutez l'inférence Gemma sur TPU.

Remarque: assurez-vous d'utiliser le conteneur Docker construit à partir de xla.Dockerfile .

docker run -t --rm 
    --shm-size 4gb 
    -e PJRT_DEVICE=TPU 
    -v ${CKPT_PATH} :/tmp/ckpt 
    ${DOCKER_URI} 
    python scripts/run_xla.py 
    --ckpt=/tmp/ckpt 
    --variant= " ${VARIANT} " 
    # add `--quant` for the int8 quantized model.

Exécutez l'inférence Gemma sur GPU.

Remarque: assurez-vous d'utiliser le conteneur Docker construit à partir de xla_gpu.Dockerfile .

docker run -t --rm --privileged 
    --shm-size=16g --net=host --gpus all 
    -e USE_CUDA=1 
    -e PJRT_DEVICE=CUDA 
    -v ${CKPT_PATH} :/tmp/ckpt 
    ${DOCKER_URI} 
    python scripts/run_xla.py 
    --ckpt=/tmp/ckpt 
    --variant= " ${VARIANT} " 
    # add `--quant` for the int8 quantized model.

Remarques à jetons

99 Les jetons inutilisés sont réservés dans le modèle de tokenizer pré-entraîné pour aider à une formation / à un réglage plus efficace. Les jetons inutilisés sont dans le format de chaîne de <unused[0-98]> avec une plage d'ID de jeton de [7-105] .

 "<unused0>": 7,
"<unused1>": 8,
"<unused2>": 9,
...
"<unused98>": 105,

Clause de non-responsabilité

Ce n'est pas un produit Google officiellement pris en charge.

Développer

Informations supplémentaires

Version 1.0.0
Type Python
Date de mise à jour 2025-07-13
taille 2.01MB
Provenant de Github

Applications connexes

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
pytorch image models

2024-11-03
nextcloud_share_url_downloader

2024-11-01
Moteur d'analyse de données Lihua version gratuite 3.0_search_navigation_collection_public opinion_ranking_api

2022-06-28

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ToDo Co

Python

1.0.0
Python Portfolio

Python
datamule python

Python
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout