Gemma 는 Google Gemini 모델을 만드는 데 사용되는 연구 및 기술로 제작 된 가벼운 최첨단 오픈 모델의 제품군입니다. 텍스트-텍스트, 디코더 전용 대형 언어 모델은 영어로 제공되는 열린 가중치, 미리 훈련 된 변형 및 명령 조정 변형입니다. 자세한 내용은 다음 링크를 확인하십시오.
이것은 Gemma 모델의 공식 Pytorch 구현입니다. Pytorch 및 Pytorch/XLA를 사용하여 모델 및 추론 구현을 제공하고 CPU, GPU 및 TPU에서 추론을 지원합니다.
[6 월 26 일] Gemma V2를 지원합니다. Kaggle과 Hugging Face에서 체크 포인트를 찾을 수 있습니다.
[4 월 9 일] Codegemma를 지원합니다. Kaggle과 Hugging Face에서 체크 포인트를 찾을 수 있습니다.
[4 월 5 일] Gemma v1.1을 지원합니다. Kaggle과 Hugging Face에서 v1.1 체크 포인트를 찾을 수 있습니다.
Kaggle에서 모델 체크 포인트를 찾을 수 있습니다.
또는 Hugging Face Hub에서 모델 검문소를 찾을 수 있습니다. 모델을 다운로드하려면 관심있는 모델의 모델 저장소를 사용하여 Files and versions 탭을 클릭하고 모델 및 토큰 화기 파일을 다운로드하십시오. 프로그래밍 방식 다운로드의 경우 huggingface_hub 가 설치된 경우 다음을 실행할 수도 있습니다.
huggingface-cli download google/gemma-7b-it-pytorch
2b, 2b v2, 7b, 7b int8 Quantized, 9b 및 27b 변이체 중에서 선택할 수 있습니다.
VARIANT=<2b or 7b or 9b or 27b>
CKPT_PATH=<Insert ckpt path here>
https://ai.google.dev/gemma/docs/pytorch_gemma의 단계를 따르십시오.
전제 조건 : 루트가 아닌 사용자로서 Docker 권한을 올바르게 설정해야합니다.
sudo usermod -aG docker $USER
newgrp dockerDOCKER_URI=gemma: ${USER}
docker build -f docker/Dockerfile ./ -t ${DOCKER_URI}PROMPT= " The meaning of life is "
docker run -t --rm
-v ${CKPT_PATH} :/tmp/ckpt
${DOCKER_URI}
python scripts/run.py
--ckpt=/tmp/ckpt
--variant= " ${VARIANT} "
--prompt= " ${PROMPT} "
# add `--quant` for the int8 quantized model.PROMPT= " The meaning of life is "
docker run -t --rm
--gpus all
-v ${CKPT_PATH} :/tmp/ckpt
${DOCKER_URI}
python scripts/run.py
--device=cuda
--ckpt=/tmp/ckpt
--variant= " ${VARIANT} "
--prompt= " ${PROMPT} "
# add `--quant` for the int8 quantized model. DOCKER_URI=gemma_xla: ${USER}
docker build -f docker/xla.Dockerfile ./ -t ${DOCKER_URI}DOCKER_URI=gemma_xla_gpu: ${USER}
docker build -f docker/xla_gpu.Dockerfile ./ -t ${DOCKER_URI}docker run -t --rm
--shm-size 4gb
-e PJRT_DEVICE=CPU
-v ${CKPT_PATH} :/tmp/ckpt
${DOCKER_URI}
python scripts/run_xla.py
--ckpt=/tmp/ckpt
--variant= " ${VARIANT} "
# add `--quant` for the int8 quantized model. 참고 : xla.Dockerfile 에서 내장 된 Docker 컨테이너를 사용하십시오.
docker run -t --rm
--shm-size 4gb
-e PJRT_DEVICE=TPU
-v ${CKPT_PATH} :/tmp/ckpt
${DOCKER_URI}
python scripts/run_xla.py
--ckpt=/tmp/ckpt
--variant= " ${VARIANT} "
# add `--quant` for the int8 quantized model. 참고 : xla_gpu.Dockerfile 에서 제작 된 Docker 컨테이너를 사용하십시오.
docker run -t --rm --privileged
--shm-size=16g --net=host --gpus all
-e USE_CUDA=1
-e PJRT_DEVICE=CUDA
-v ${CKPT_PATH} :/tmp/ckpt
${DOCKER_URI}
python scripts/run_xla.py
--ckpt=/tmp/ckpt
--variant= " ${VARIANT} "
# add `--quant` for the int8 quantized model. 99 사용하지 않는 토큰이 예비 토큰 화제 모델에 예약되어보다 효율적인 훈련/미세 조정을 지원합니다. 사용하지 않은 토큰은 <unused[0-98]> 의 문자열 형식입니다. 토큰 ID 범위는 [7-105] 입니다.
"<unused0>": 7,
"<unused1>": 8,
"<unused2>": 9,
...
"<unused98>": 105,
이것은 공식적으로 지원되는 Google 제품이 아닙니다.