Gemma ist eine Familie von leichten, hochmodernen Modellen, die aus Forschung und Technologie zur Erstellung von Google Gemini-Modellen hergestellt wurden. Sie sind Text-to-Text-Modelle nur für Decoder, die in englischer Sprache erhältlich sind, mit offenen Gewichten, vorgeborenen Varianten und Anleitungsvarianten. Weitere Informationen finden Sie in den folgenden Links:
Dies ist die offizielle Pytorch -Implementierung von Gemma -Modellen. Wir bieten Modell- und Inferenzimplementierungen sowohl mit Pytorch als auch mit Pytorch/XLA und unterstützen die Ausführung von Inferenz in CPU, GPU und TPU.
[26. Juni] Unterstützung Gemma V2. Sie können die Checkpoints auf Kaggle und umarmtem Gesicht finden
[9. April] Support Codegemma. Sie können die Checkpoints auf Kaggle und umarmtem Gesicht finden
[5. April] Unterstützung Gemma v1.1. Sie finden die V1.1 -Checkpoints auf Kaggle und umarmen Gesicht.
Hier finden Sie die Modell -Checkpoints auf Kaggle.
Alternativ finden Sie hier die Modellkontrollpunkte auf dem Umarmungs -Face -Hub. Um die Modelle herunterzuladen, gehen Sie das Modellrepository des interessierenden Modells und klicken Sie auf die Registerkarte Files and versions und laden Sie die Modell- und Tokenizer -Dateien herunter. Wenn Sie für das programmatische Herunterladen huggingface_hub installiert sind, können Sie auch ausführen:
huggingface-cli download google/gemma-7b-it-pytorch
Beachten Sie, dass Sie zwischen 2B-, 2B V2-, 7B-, 7B -INT8 -Varianten, 9B- und 27B -Varianten wählen können.
VARIANT=<2b or 7b or 9b or 27b>
CKPT_PATH=<Insert ckpt path here>
Befolgen Sie die Schritte unter https://ai.google.dev/gemma/docs/pytorch_gemma.
Voraussetzung: Stellen Sie sicher, dass Sie die Berechtigung von Docker als Nicht-Root-Benutzer ordnungsgemäß eingerichtet haben.
sudo usermod -aG docker $USER
newgrp dockerDOCKER_URI=gemma: ${USER}
docker build -f docker/Dockerfile ./ -t ${DOCKER_URI}PROMPT= " The meaning of life is "
docker run -t --rm
-v ${CKPT_PATH} :/tmp/ckpt
${DOCKER_URI}
python scripts/run.py
--ckpt=/tmp/ckpt
--variant= " ${VARIANT} "
--prompt= " ${PROMPT} "
# add `--quant` for the int8 quantized model.PROMPT= " The meaning of life is "
docker run -t --rm
--gpus all
-v ${CKPT_PATH} :/tmp/ckpt
${DOCKER_URI}
python scripts/run.py
--device=cuda
--ckpt=/tmp/ckpt
--variant= " ${VARIANT} "
--prompt= " ${PROMPT} "
# add `--quant` for the int8 quantized model. DOCKER_URI=gemma_xla: ${USER}
docker build -f docker/xla.Dockerfile ./ -t ${DOCKER_URI}DOCKER_URI=gemma_xla_gpu: ${USER}
docker build -f docker/xla_gpu.Dockerfile ./ -t ${DOCKER_URI}docker run -t --rm
--shm-size 4gb
-e PJRT_DEVICE=CPU
-v ${CKPT_PATH} :/tmp/ckpt
${DOCKER_URI}
python scripts/run_xla.py
--ckpt=/tmp/ckpt
--variant= " ${VARIANT} "
# add `--quant` for the int8 quantized model. Hinweis: Verwenden Sie unbedingt den von xla.Dockerfile erstellten Docker -Container.
docker run -t --rm
--shm-size 4gb
-e PJRT_DEVICE=TPU
-v ${CKPT_PATH} :/tmp/ckpt
${DOCKER_URI}
python scripts/run_xla.py
--ckpt=/tmp/ckpt
--variant= " ${VARIANT} "
# add `--quant` for the int8 quantized model. HINWEIS: Verwenden Sie unbedingt den von xla_gpu.Dockerfile erstellten Docker -Container.
docker run -t --rm --privileged
--shm-size=16g --net=host --gpus all
-e USE_CUDA=1
-e PJRT_DEVICE=CUDA
-v ${CKPT_PATH} :/tmp/ckpt
${DOCKER_URI}
python scripts/run_xla.py
--ckpt=/tmp/ckpt
--variant= " ${VARIANT} "
# add `--quant` for the int8 quantized model. 99 unbenutzte Token sind im vorgezogenen Tokenizer-Modell reserviert, um effizientere Schulungen/Feinabstimmungen zu unterstützen. Unbenutzte Token befinden sich im Stringformat von <unused[0-98]> mit Token-ID-Bereich von [7-105] .
"<unused0>": 7,
"<unused1>": 8,
"<unused2>": 9,
...
"<unused98>": 105,
Dies ist kein offiziell unterstütztes Google -Produkt.