Gemmaは、Google Geminiモデルの作成に使用される研究と技術から構築された軽量で最先端のオープンモデルの家族です。それらは、テキストからテキスト、デコーダーのみの大型言語モデルで、英語で利用可能で、オープンウェイト、事前に訓練されたバリアント、命令チューニングされたバリアントを備えています。詳細については、次のリンクをご覧ください。
これは、GEMMAモデルの公式のPytorch実装です。 PytorchとPytorch/XLAの両方を使用してモデルと推論の実装を提供し、CPU、GPU、TPUの実行中推論をサポートします。
[6月26日] Gemma V2をサポート。 KaggleとHugging Faceでチェックポイントを見つけることができます
[4月9日] CodeGemmaをサポートします。 KaggleとHugging Faceでチェックポイントを見つけることができます
[4月5日] Gemma V1.1をサポートします。 KaggleとHuggingの顔にV1.1チェックポイントを見つけることができます。
ここで、Kaggleでモデルチェックポイントを見つけることができます。
または、ここで抱きしめるフェイスハブにモデルチェックポイントを見つけることができます。モデルをダウンロードするには、関心のあるモデルのモデルリポジトリを移動し、 Files and versionsタブをクリックし、モデルとトークネイザーファイルをダウンロードします。プログラマティックダウンロードの場合、 huggingface_hubがインストールされている場合は、実行することもできます。
huggingface-cli download google/gemma-7b-it-pytorch
2b、2b V2、7b、7b int8 Quantized、9b、および27bのバリアントを選択できることに注意してください。
VARIANT=<2b or 7b or 9b or 27b>
CKPT_PATH=<Insert ckpt path here>
https://ai.google.dev/gemma/docs/pytorch_gemmaの手順に従ってください。
前提条件:非ルートユーザーとしてDockerの許可を適切に設定していることを確認してください。
sudo usermod -aG docker $USER
newgrp dockerDOCKER_URI=gemma: ${USER}
docker build -f docker/Dockerfile ./ -t ${DOCKER_URI}PROMPT= " The meaning of life is "
docker run -t --rm
-v ${CKPT_PATH} :/tmp/ckpt
${DOCKER_URI}
python scripts/run.py
--ckpt=/tmp/ckpt
--variant= " ${VARIANT} "
--prompt= " ${PROMPT} "
# add `--quant` for the int8 quantized model.PROMPT= " The meaning of life is "
docker run -t --rm
--gpus all
-v ${CKPT_PATH} :/tmp/ckpt
${DOCKER_URI}
python scripts/run.py
--device=cuda
--ckpt=/tmp/ckpt
--variant= " ${VARIANT} "
--prompt= " ${PROMPT} "
# add `--quant` for the int8 quantized model. DOCKER_URI=gemma_xla: ${USER}
docker build -f docker/xla.Dockerfile ./ -t ${DOCKER_URI}DOCKER_URI=gemma_xla_gpu: ${USER}
docker build -f docker/xla_gpu.Dockerfile ./ -t ${DOCKER_URI}docker run -t --rm
--shm-size 4gb
-e PJRT_DEVICE=CPU
-v ${CKPT_PATH} :/tmp/ckpt
${DOCKER_URI}
python scripts/run_xla.py
--ckpt=/tmp/ckpt
--variant= " ${VARIANT} "
# add `--quant` for the int8 quantized model.注: xla.Dockerfileから構築されたDockerコンテナを必ず使用してください。
docker run -t --rm
--shm-size 4gb
-e PJRT_DEVICE=TPU
-v ${CKPT_PATH} :/tmp/ckpt
${DOCKER_URI}
python scripts/run_xla.py
--ckpt=/tmp/ckpt
--variant= " ${VARIANT} "
# add `--quant` for the int8 quantized model.注: xla_gpu.Dockerfileから構築されたDockerコンテナを必ず使用してください。
docker run -t --rm --privileged
--shm-size=16g --net=host --gpus all
-e USE_CUDA=1
-e PJRT_DEVICE=CUDA
-v ${CKPT_PATH} :/tmp/ckpt
${DOCKER_URI}
python scripts/run_xla.py
--ckpt=/tmp/ckpt
--variant= " ${VARIANT} "
# add `--quant` for the int8 quantized model.99の未使用のトークンは、より効率的なトレーニング/微調整を支援するために、前提条件のトークン剤モデルに予約されています。未使用のトークンは、 [7-105]のトークンID範囲を使用して<unused[0-98]>の文字列形式です。
"<unused0>": 7,
"<unused1>": 8,
"<unused2>": 9,
...
"<unused98>": 105,
これは、公式にサポートされているGoogle製品ではありません。