杰玛(Gemma)是一个由用于创建Google Gemini模型的研究和技术建立的轻巧,最先进的开放模型。它们是文本到文本的,仅解码器的大型语言模型,具有英语,具有开放权重,预先训练的变体和指令调整的变体。有关更多详细信息,请查看以下链接:
这是Gemma模型的官方Pytorch实施。我们使用Pytorch和Pytorch/XLA提供模型和推理实现,并支持对CPU,GPU和TPU运行推断。
[6月26日]支持Gemma V2。您可以在Kaggle和拥抱脸上找到检查站
[4月9日]支持编码。您可以在Kaggle和拥抱脸上找到检查站
[4月5日]支持Gemma V1.1。您可以在Kaggle和拥抱的脸上找到V1.1检查点。
您可以在此处的Kaggle上找到模型检查点。
另外,您可以在此处的拥抱面线上找到模型检查点。要下载模型,请转到感兴趣模型的模型存储库,然后单击Files and versions选项卡,然后下载模型和令牌文件。对于程序化下载,如果安装了huggingface_hub ,也可以运行:
huggingface-cli download google/gemma-7b-it-pytorch
请注意,您可以在2B,2B V2,7B,7B INT8量化,9B和27B变体之间进行选择。
VARIANT=<2b or 7b or 9b or 27b>
CKPT_PATH=<Insert ckpt path here>
请按照https://ai.google.dev/gemma/docs/pytorch_gemma的步骤进行步骤。
先决条件:确保您作为非root用户正确设置了Docker权限。
sudo usermod -aG docker $USER
newgrp dockerDOCKER_URI=gemma: ${USER}
docker build -f docker/Dockerfile ./ -t ${DOCKER_URI}PROMPT= " The meaning of life is "
docker run -t --rm
-v ${CKPT_PATH} :/tmp/ckpt
${DOCKER_URI}
python scripts/run.py
--ckpt=/tmp/ckpt
--variant= " ${VARIANT} "
--prompt= " ${PROMPT} "
# add `--quant` for the int8 quantized model.PROMPT= " The meaning of life is "
docker run -t --rm
--gpus all
-v ${CKPT_PATH} :/tmp/ckpt
${DOCKER_URI}
python scripts/run.py
--device=cuda
--ckpt=/tmp/ckpt
--variant= " ${VARIANT} "
--prompt= " ${PROMPT} "
# add `--quant` for the int8 quantized model. DOCKER_URI=gemma_xla: ${USER}
docker build -f docker/xla.Dockerfile ./ -t ${DOCKER_URI}DOCKER_URI=gemma_xla_gpu: ${USER}
docker build -f docker/xla_gpu.Dockerfile ./ -t ${DOCKER_URI}docker run -t --rm
--shm-size 4gb
-e PJRT_DEVICE=CPU
-v ${CKPT_PATH} :/tmp/ckpt
${DOCKER_URI}
python scripts/run_xla.py
--ckpt=/tmp/ckpt
--variant= " ${VARIANT} "
# add `--quant` for the int8 quantized model.注意:请确保使用由xla.Dockerfile构建的Docker容器。
docker run -t --rm
--shm-size 4gb
-e PJRT_DEVICE=TPU
-v ${CKPT_PATH} :/tmp/ckpt
${DOCKER_URI}
python scripts/run_xla.py
--ckpt=/tmp/ckpt
--variant= " ${VARIANT} "
# add `--quant` for the int8 quantized model.注意:请确保使用xla_gpu.Dockerfile构建的Docker容器。
docker run -t --rm --privileged
--shm-size=16g --net=host --gpus all
-e USE_CUDA=1
-e PJRT_DEVICE=CUDA
-v ${CKPT_PATH} :/tmp/ckpt
${DOCKER_URI}
python scripts/run_xla.py
--ckpt=/tmp/ckpt
--variant= " ${VARIANT} "
# add `--quant` for the int8 quantized model.99个未使用的令牌保留在经过预定的令牌模型中,以帮助进行更有效的培训/微调。未使用的令牌为<unused[0-98]>的字符串格式,令牌ID范围为[7-105] 。
"<unused0>": 7,
"<unused1>": 8,
"<unused2>": 9,
...
"<unused98>": 105,
这不是官方支持的Google产品。