Gemma es una familia de modelos abiertos livianos y de última generación construidos a partir de la investigación y la tecnología utilizadas para crear modelos Google Gemini. Son modelos de idiomas grandes solo de texto a texto, disponibles en inglés, con pesas abiertas, variantes previamente capacitadas y variantes ajustadas a instrucciones. Para obtener más detalles, consulte los siguientes enlaces:
Esta es la implementación oficial de Pytorch de los modelos Gemma. Proporcionamos implementaciones de modelo e inferencia utilizando Pytorch y Pytorch/XLA, y admitimos la ejecución de inferencia en CPU, GPU y TPU.
[26 de junio] Apoyo a Gemma V2. Puedes encontrar los puntos de control en Kaggle y abrazar la cara
[9 de abril] Soporte Codegemma. Puedes encontrar los puntos de control en Kaggle y abrazar la cara
[5 de abril] Apoya a Gemma V1.1. Puede encontrar los puntos de control V1.1 en Kaggle y abrazando la cara.
Puede encontrar los puntos de control del modelo en Kaggle aquí.
Alternativamente, puede encontrar los puntos de control del modelo en el centro de abrazadera aquí. Para descargar los modelos, realice el repositorio del modelo del modelo de interés y haga clic en la pestaña Files and versions , y descargue el modelo y los archivos de tokenizer. Para la descarga programática, si tiene instalado huggingface_hub , también puede ejecutar:
huggingface-cli download google/gemma-7b-it-pytorch
Tenga en cuenta que puede elegir entre variantes 2b, 2b V2, 7b, 7b int8 cuantificadas, 9B y 27B.
VARIANT=<2b or 7b or 9b or 27b>
CKPT_PATH=<Insert ckpt path here>
Siga los pasos en https://ai.google.dev/gemma/docs/pytorch_gemma.
Prerrequisito: asegúrese de tener el permiso de configuración Docker correctamente como un usuario no raíz.
sudo usermod -aG docker $USER
newgrp dockerDOCKER_URI=gemma: ${USER}
docker build -f docker/Dockerfile ./ -t ${DOCKER_URI}PROMPT= " The meaning of life is "
docker run -t --rm
-v ${CKPT_PATH} :/tmp/ckpt
${DOCKER_URI}
python scripts/run.py
--ckpt=/tmp/ckpt
--variant= " ${VARIANT} "
--prompt= " ${PROMPT} "
# add `--quant` for the int8 quantized model.PROMPT= " The meaning of life is "
docker run -t --rm
--gpus all
-v ${CKPT_PATH} :/tmp/ckpt
${DOCKER_URI}
python scripts/run.py
--device=cuda
--ckpt=/tmp/ckpt
--variant= " ${VARIANT} "
--prompt= " ${PROMPT} "
# add `--quant` for the int8 quantized model. DOCKER_URI=gemma_xla: ${USER}
docker build -f docker/xla.Dockerfile ./ -t ${DOCKER_URI}DOCKER_URI=gemma_xla_gpu: ${USER}
docker build -f docker/xla_gpu.Dockerfile ./ -t ${DOCKER_URI}docker run -t --rm
--shm-size 4gb
-e PJRT_DEVICE=CPU
-v ${CKPT_PATH} :/tmp/ckpt
${DOCKER_URI}
python scripts/run_xla.py
--ckpt=/tmp/ckpt
--variant= " ${VARIANT} "
# add `--quant` for the int8 quantized model. Nota: Asegúrese de usar el contenedor Docker construido desde xla.Dockerfile .
docker run -t --rm
--shm-size 4gb
-e PJRT_DEVICE=TPU
-v ${CKPT_PATH} :/tmp/ckpt
${DOCKER_URI}
python scripts/run_xla.py
--ckpt=/tmp/ckpt
--variant= " ${VARIANT} "
# add `--quant` for the int8 quantized model. Nota: Asegúrese de usar el contenedor Docker construido desde xla_gpu.Dockerfile .
docker run -t --rm --privileged
--shm-size=16g --net=host --gpus all
-e USE_CUDA=1
-e PJRT_DEVICE=CUDA
-v ${CKPT_PATH} :/tmp/ckpt
${DOCKER_URI}
python scripts/run_xla.py
--ckpt=/tmp/ckpt
--variant= " ${VARIANT} "
# add `--quant` for the int8 quantized model. 99 Los tokens no utilizados están reservados en el modelo de tokenizador previo a la aparición para ayudar con capacitación/ajuste más eficiente. Los tokens no utilizados están en el formato de cadena de <unused[0-98]> con el rango de ID de token de [7-105] .
"<unused0>": 7,
"<unused1>": 8,
"<unused2>": 9,
...
"<unused98>": 105,
Este no es un producto de Google compatible oficialmente.