Download do LLAMA llama dfdx - LLAMA llama dfdx Download do código -fonte

llama dfdx

Código-Fonte de IA

1.0.0

Baixar

Lhama 7b em ferrugem

Este repo contém o popular modelo de linguagem LLAMA 7B, totalmente implementado na linguagem de programação da ferrugem!

Usa tensores DFDX e aceleração CUDA.

Isso é executado diretamente no F16, o que significa que não há aceleração de hardware na CPU. Usando CUDA é fortemente recomendado.

Aqui está o modelo 7B em execução em uma GPU A10:

Como correr

(Uma vez) configurar pesos do modelo

Download de pesos do modelo

Instale Git LFS. No Ubuntu, você pode executar sudo apt install git-lfs
Ative Git LFS com git lfs install .
Execute os seguintes comandos para baixar os pesos do modelo no formato pytorch (~ 25 GB):
1. LLAMA 7B (~ 25 GB): git clone https://huggingface.co/decapoda-research/llama-7b-hf
2. LLAMA 13B (~ 75 GB): git clone https://huggingface.co/decapoda-research/llama-13b-hf
3. LLAMA 65B (~ 244 GB): git clone https://huggingface.co/decapoda-research/llama-65b-hf

Converta o modelo

(Opcional) Run python3.x -m venv <my_env_name> para criar um ambiente virtual python, onde x é sua versão preferida do Python
(Opcional, requer 1.) Execute source <my_env_name>binactivate (ou <my_env_name>Scriptsactivate se no Windows) para ativar o ambiente
Execute pip install numpy torch
Execute python convert.py para converter os pesos do modelo em formato compreensível da ferrugem: a. Llama 7b: python convert.py b. LLAMA 13B: python convert.py llama-13b-hf c. Llama 65b: python convert.py llama-65b-hf

(Uma vez) compilar

Você pode compilar com comandos normais de ferrugem:

Com CUDA:

cargo build --release -F cuda

Sem Cuda:

cargo build --release

Execute o executável

Com args padrão:

./target/release/llama-dfdx --model < model-dir > generate " <prompt> "
./target/release/llama-dfdx --model < model-dir > chat
./target/release/llama-dfdx --model < model-dir > file < path to prompt file >

Para ver quais comandos/args personalizados você pode usar: