Gemma é uma família de modelos leves e de última geração, construídos a partir de pesquisas e tecnologia usadas para criar modelos do Google Gemini. Eles são modelos de idiomas de texto de texto em texto e de texto, disponíveis em inglês, com pesos abertos, variantes pré-treinadas e variantes ajustadas por instruções. Para mais detalhes, consulte os seguintes links:
Esta é a implementação oficial de Pytorch dos modelos Gemma. Fornecemos implementações de modelo e inferência usando Pytorch e Pytorch/XLA e apoiamos a inferência de execução na CPU, GPU e TPU.
[26 de junho] Apoie Gemma V2. Você pode encontrar os postos de controle em Kaggle e o rosto abraçando
[9 de abril] Suporte CodeGemma. Você pode encontrar os postos de controle em Kaggle e o rosto abraçando
[5 de abril] Apoio Gemma v1.1. Você pode encontrar os pontos de verificação V1.1 em Kaggle e Abraçando o rosto.
Você pode encontrar os pontos de verificação do modelo em Kaggle aqui.
Como alternativa, você pode encontrar os pontos de verificação do modelo no hub de rosto abraçados aqui. Para baixar os modelos, vá o repositório do modelo do modelo de interesse e clique na guia Files and versions e faça o download do modelo e dos arquivos de tokenizer. Para download programático, se você tiver huggingface_hub instalado, também pode ser executado:
huggingface-cli download google/gemma-7b-it-pytorch
Observe que você pode escolher entre as variantes 2B, 2B V2, 7B, 7B INT8 INT8, 9B e 27B.
VARIANT=<2b or 7b or 9b or 27b>
CKPT_PATH=<Insert ckpt path here>
Siga as etapas em https://ai.google.dev/gemma/docs/pytorch_gemma.
Pré-requisito: verifique se você configurou a permissão do Docker corretamente como um usuário sem raios.
sudo usermod -aG docker $USER
newgrp dockerDOCKER_URI=gemma: ${USER}
docker build -f docker/Dockerfile ./ -t ${DOCKER_URI}PROMPT= " The meaning of life is "
docker run -t --rm
-v ${CKPT_PATH} :/tmp/ckpt
${DOCKER_URI}
python scripts/run.py
--ckpt=/tmp/ckpt
--variant= " ${VARIANT} "
--prompt= " ${PROMPT} "
# add `--quant` for the int8 quantized model.PROMPT= " The meaning of life is "
docker run -t --rm
--gpus all
-v ${CKPT_PATH} :/tmp/ckpt
${DOCKER_URI}
python scripts/run.py
--device=cuda
--ckpt=/tmp/ckpt
--variant= " ${VARIANT} "
--prompt= " ${PROMPT} "
# add `--quant` for the int8 quantized model. DOCKER_URI=gemma_xla: ${USER}
docker build -f docker/xla.Dockerfile ./ -t ${DOCKER_URI}DOCKER_URI=gemma_xla_gpu: ${USER}
docker build -f docker/xla_gpu.Dockerfile ./ -t ${DOCKER_URI}docker run -t --rm
--shm-size 4gb
-e PJRT_DEVICE=CPU
-v ${CKPT_PATH} :/tmp/ckpt
${DOCKER_URI}
python scripts/run_xla.py
--ckpt=/tmp/ckpt
--variant= " ${VARIANT} "
# add `--quant` for the int8 quantized model. NOTA: Certifique -se de usar o contêiner do Docker construído a partir xla.Dockerfile .
docker run -t --rm
--shm-size 4gb
-e PJRT_DEVICE=TPU
-v ${CKPT_PATH} :/tmp/ckpt
${DOCKER_URI}
python scripts/run_xla.py
--ckpt=/tmp/ckpt
--variant= " ${VARIANT} "
# add `--quant` for the int8 quantized model. NOTA: Certifique -se de usar o contêiner do Docker construído a partir de xla_gpu.Dockerfile .
docker run -t --rm --privileged
--shm-size=16g --net=host --gpus all
-e USE_CUDA=1
-e PJRT_DEVICE=CUDA
-v ${CKPT_PATH} :/tmp/ckpt
${DOCKER_URI}
python scripts/run_xla.py
--ckpt=/tmp/ckpt
--variant= " ${VARIANT} "
# add `--quant` for the int8 quantized model. 99 Tokens não utilizados são reservados no modelo de tokenizador pré-treinado para ajudar com treinamento/ajuste mais eficiente. Os tokens não utilizados estão no formato da string de <unused[0-98]> com intervalo de ID de token de [7-105] .
"<unused0>": 7,
"<unused1>": 8,
"<unused2>": 9,
...
"<unused98>": 105,
Este não é um produto do Google oficialmente suportado.