تنزيل llama dfdx - تنزيل رمز المصدر llama dfdx

llama dfdx

كود الذكاء الاصطناعي

1.0.0

تنزيل

لاما 7 ب في الصدأ

يحتوي هذا الريبو على نموذج لغة Llama 7B الشهير ، الذي تم تنفيذه بالكامل في لغة برمجة الصدأ!

يستخدم DFDX الموترات وتسارع CUDA.

هذا يعمل Llama مباشرة في F16 ، مما يعني أنه لا يوجد تسارع للأجهزة على وحدة المعالجة المركزية. باستخدام CUDA ينصح بشدة.

هنا هو نموذج 7B الذي يعمل على وحدة معالجة الرسومات A10:

كيفية الجري

(مرة واحدة) إعداد أوزان النموذج

تحميل الأوزان النموذج

تثبيت GIT LFS. في Ubuntu ، يمكنك تشغيل sudo apt install git-lfs
تنشيط GIT LFS مع git lfs install .
قم بتشغيل الأوامر التالية لتنزيل أوزان النموذج بتنسيق Pytorch (~ 25 جيجابايت):
1. llama 7b (~ 25 جيجابايت): git clone https://huggingface.co/decapoda-research/llama-7b-hf
2. llama 13b (~ 75 جيجا بايت): git clone https://huggingface.co/decapoda-research/llama-13b-hf
3. llama 65b (~ 244 جيجا بايت): git clone https://huggingface.co/decapoda-research/llama-65b-hf

تحويل النموذج

(اختياري) Run python3.x -m venv <my_env_name> لإنشاء بيئة افتراضية Python ، حيث x هي إصدار Python المفضل لديك
(اختياري ، يتطلب 1.) قم بتشغيل source <my_env_name>binactivate (أو <my_env_name>Scriptsactivate إذا على Windows) لتنشيط البيئة
قم بتشغيل pip install numpy torch
قم بتشغيل python convert.py لتحويل أوزان النموذج إلى تنسيق الصدأ المفهوم: أ. Llama 7B: python convert.py b. Llama 13b: python convert.py llama-13b-hf c. Llama 65b: python convert.py llama-65b-hf

(مرة واحدة) ترجمة

يمكنك تجميع أوامر الصدأ العادية:

مع كودا:

cargo build --release -F cuda

بدون كودا:

cargo build --release

تشغيل القابل للتنفيذ

مع args الافتراضي:

./target/release/llama-dfdx --model < model-dir > generate " <prompt> "
./target/release/llama-dfdx --model < model-dir > chat
./target/release/llama-dfdx --model < model-dir > file < path to prompt file >

لمعرفة الأوامر/args المخصصة التي يمكنك استخدامها: