download gemma_pytorch - gemma_pytorch download de código fonte

gemma_pytorch

Pitão

1.0.0

Baixar

Gemma em Pytorch

Gemma é uma família de modelos leves e de última geração, construídos a partir de pesquisas e tecnologia usadas para criar modelos do Google Gemini. Eles são modelos de idiomas de texto de texto em texto e de texto, disponíveis em inglês, com pesos abertos, variantes pré-treinadas e variantes ajustadas por instruções. Para mais detalhes, consulte os seguintes links:

Gemma no Google AI
Gemma em Kaggle
GEMMA ON VERTEX AI Model Garden

Esta é a implementação oficial de Pytorch dos modelos Gemma. Fornecemos implementações de modelo e inferência usando Pytorch e Pytorch/XLA e apoiamos a inferência de execução na CPU, GPU e TPU.

Atualizações

[26 de junho] Apoie Gemma V2. Você pode encontrar os postos de controle em Kaggle e o rosto abraçando
[9 de abril] Suporte CodeGemma. Você pode encontrar os postos de controle em Kaggle e o rosto abraçando
[5 de abril] Apoio Gemma v1.1. Você pode encontrar os pontos de verificação V1.1 em Kaggle e Abraçando o rosto.

Baixe o ponto de verificação do modelo Gemma

Você pode encontrar os pontos de verificação do modelo em Kaggle aqui.

Como alternativa, você pode encontrar os pontos de verificação do modelo no hub de rosto abraçados aqui. Para baixar os modelos, vá o repositório do modelo do modelo de interesse e clique na guia Files and versions e faça o download do modelo e dos arquivos de tokenizer. Para download programático, se você tiver huggingface_hub instalado, também pode ser executado:

 huggingface-cli download google/gemma-7b-it-pytorch

Observe que você pode escolher entre as variantes 2B, 2B V2, 7B, 7B INT8 INT8, 9B e 27B.

 VARIANT=<2b or 7b or 9b or 27b>
CKPT_PATH=<Insert ckpt path here>

Experimente grátis no Colab

Siga as etapas em https://ai.google.dev/gemma/docs/pytorch_gemma.

Experimente com Pytorch

Pré-requisito: verifique se você configurou a permissão do Docker corretamente como um usuário sem raios.

sudo usermod -aG docker $USER
newgrp docker

Construa a imagem do docker.

DOCKER_URI=gemma: ${USER}

docker build -f docker/Dockerfile ./ -t ${DOCKER_URI}

Execute a inferência de Gemma na CPU.

PROMPT= " The meaning of life is "

docker run -t --rm 
    -v ${CKPT_PATH} :/tmp/ckpt 
    ${DOCKER_URI} 
    python scripts/run.py 
    --ckpt=/tmp/ckpt 
    --variant= " ${VARIANT} " 
    --prompt= " ${PROMPT} "
    # add `--quant` for the int8 quantized model.

Execute a inferência de Gemma na GPU.

PROMPT= " The meaning of life is "

docker run -t --rm 
    --gpus all 
    -v ${CKPT_PATH} :/tmp/ckpt 
    ${DOCKER_URI} 
    python scripts/run.py 
    --device=cuda 
    --ckpt=/tmp/ckpt 
    --variant= " ${VARIANT} " 
    --prompt= " ${PROMPT} "
    # add `--quant` for the int8 quantized model.

Experimente com pytorch/xla

Construa a imagem do docker (CPU, TPU).

DOCKER_URI=gemma_xla: ${USER}

docker build -f docker/xla.Dockerfile ./ -t ${DOCKER_URI}

Construa a imagem do Docker (GPU).

DOCKER_URI=gemma_xla_gpu: ${USER}

docker build -f docker/xla_gpu.Dockerfile ./ -t ${DOCKER_URI}

Execute a inferência de Gemma na CPU.

docker run -t --rm 
    --shm-size 4gb 
    -e PJRT_DEVICE=CPU 
    -v ${CKPT_PATH} :/tmp/ckpt 
    ${DOCKER_URI} 
    python scripts/run_xla.py 
    --ckpt=/tmp/ckpt 
    --variant= " ${VARIANT} " 
    # add `--quant` for the int8 quantized model.

Execute a inferência de Gemma na TPU.

NOTA: Certifique -se de usar o contêiner do Docker construído a partir xla.Dockerfile .

docker run -t --rm 
    --shm-size 4gb 
    -e PJRT_DEVICE=TPU 
    -v ${CKPT_PATH} :/tmp/ckpt 
    ${DOCKER_URI} 
    python scripts/run_xla.py 
    --ckpt=/tmp/ckpt 
    --variant= " ${VARIANT} " 
    # add `--quant` for the int8 quantized model.

Execute a inferência de Gemma na GPU.

NOTA: Certifique -se de usar o contêiner do Docker construído a partir de xla_gpu.Dockerfile .

docker run -t --rm --privileged 
    --shm-size=16g --net=host --gpus all 
    -e USE_CUDA=1 
    -e PJRT_DEVICE=CUDA 
    -v ${CKPT_PATH} :/tmp/ckpt 
    ${DOCKER_URI} 
    python scripts/run_xla.py 
    --ckpt=/tmp/ckpt 
    --variant= " ${VARIANT} " 
    # add `--quant` for the int8 quantized model.

Notas do Tokenizer

99 Tokens não utilizados são reservados no modelo de tokenizador pré-treinado para ajudar com treinamento/ajuste mais eficiente. Os tokens não utilizados estão no formato da string de <unused[0-98]> com intervalo de ID de token de [7-105] .

 "<unused0>": 7,
"<unused1>": 8,
"<unused2>": 9,
...
"<unused98>": 105,

Isenção de responsabilidade

Este não é um produto do Google oficialmente suportado.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Pitão
Data da Última Atualização 2025-07-13
tamanho 2.01MB
Vindo de Github

Aplicativos Relacionados

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
pytorch image models

2024-11-03
nextcloud_share_url_downloader

2024-11-01
Mecanismo de análise de dados Lihua versão gratuita 3.0_search_navigation_collection_public parecer_ranking_api

2022-06-28

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ToDo Co

Pitão

1.0.0
Python Portfolio

Pitão
datamule python

Pitão
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos