Unduh felafax - Unduh Kode Sumber felafax

felafax

Kode sumber lainnya

1.0.0

Unduh

FELAFAX - Tune LLAMA3.1 di Google Cloud TPU untuk 30% biaya dan skala lebih rendah dengan mulus!

gambar

FELAFAX adalah kerangka kerja untuk pelatihan lanjutan dan menyempurnakan LLMS open source menggunakan XLA Runtime . Kami mengurus pengaturan runtime yang diperlukan dan menyediakan buku catatan Jupyter di luar kotak untuk memulai.

Mudah digunakan.
Mudah dikonfigurasi semua aspek pelatihan (dirancang untuk peneliti dan peretas ML).
Pelatihan yang mudah untuk skala dari TPU VM tunggal dengan 8 core ke seluruh Pod TPU yang berisi 6000 inti TPU ( 1000x )!

Tujuan kami di FELAFAX adalah untuk membangun infra untuk membuatnya lebih mudah untuk menjalankan beban kerja AI pada perangkat keras non-NVIDIA (TPU, AWS Felium, AMD GPU, dan Intel GPU).

Finetune gratis

Tambahkan dataset Anda, klik "Jalankan semua", dan Anda akan menjalankan sumber daya TPU gratis di Google Colab!

Dukungan Felafax	Buku catatan gratis
Llama 3.1 (1b, 3b)	▶ ️ Mulailah secara gratis di Google Colab TPU

Model yang didukung saat ini

Llama-3.1 Implementasi Jax $$ { Color {Red} baru!} $$
- Dikonversi dari pytorch ke jax untuk peningkatan kinerja
- Dukungan pelatihan presisi penuh dan LORA untuk 1B, 3B, 8B, 70B, 405B .
- Jalankan secara efisien di berbagai perangkat keras (TPU, AWS Flielium, NVIDIA, AMD) melalui Backend XLA yang dioptimalkan oleh perangkat keras JAX
- Skala mulus untuk menangani panjang konteks yang lebih besar dan kumpulan data dengan mencekik di beberapa akselerator
Llama-3/3.1 Pytorch XLA
- Lora dan dukungan pelatihan presisi penuh
- codepointer

Menjalankan fine-tuning melalui felafax cli $$ { Color {Red} baru!} $$

Mulailah dengan menyempurnakan model Anda menggunakan Felafax CLI dalam beberapa langkah sederhana.

Langkah 1. Instal CLI dan otentikasi

Mulailah dengan memasang CLI.

pip install pipx
pipx install felafax-cli

Kemudian, hasilkan token auth:

Kunjungi felafax.ai dan buat/masuk ke akun Anda.
Arahkan ke halaman Tokens dan buat token baru.

Akhirnya, otentikasi sesi CLI Anda menggunakan token Anda:

felafax-cli auth login --token < your_token >

Langkah 2. Atur konfigurasi fine-tuning

Pertama, hasilkan file konfigurasi default untuk fine-tuning. Perintah ini menghasilkan file config.yml di direktori saat ini dengan nilai hyperparameter default.

felafax-cli tune init-config

Kedua, perbarui file konfigurasi dengan hyperparameters Anda:

Kenop Huggingface:
- Berikan Token Huggingface dan ID Repositori Anda untuk mengunggah model yang disesuaikan.
Pipa Dataset dan Param Pelatihan:
- Sesuaikan batch_size , max_seq_length untuk digunakan untuk dataset fine-tuning.
- Atur num_steps ke null jika Anda ingin trainig berjalan melalui seluruh dataset. Jika num_steps diatur ke angka, pelatihan akan berhenti setelah jumlah langkah yang ditentukan.
- Setel learning_rate dan lora_rank untuk digunakan untuk fine-tuning.
- eval_interval adalah jumlah langkah antara evaluasi.

Langkah 3. Mulai menjalankan penyempurnaan

Jalankan perintah ikuti untuk melihat daftar model dasar yang dapat Anda selesaikan, kami mendukung semua varian Llama-3.1 sampai sekarang.

felafax-cli tune start --help

Sekarang, Anda dapat memulai proses penyempurnaan dengan model yang Anda pilih dari daftar di atas dan nama dataset dari Huggingface (seperti yahma/alpaca-cleaned ):

felafax-cli tune start --model < your_selected_model > --config ./config.yml --hf-dataset-id < your_hf_dataset_name >

Contoh Perintah Untuk Membuat Anda Memulai:

felafax-cli tune start --model llama3-2-1b --config ./config.yml --hf-dataset-id yahma/alpaca-cleaned

Setelah Anda memulai pekerjaan yang menyempurnakan, Felafax CLI menangani pemintalan TPU, menjalankan pelatihan, dan mengunggah model yang disesuaikan ke hub Huggingface.

Perintah praktis lainnya

Pantau pekerjaan penyempurnaan

Anda dapat melakukan streaming log realtime untuk memantau kemajuan pekerjaan penyempurnaan Anda:

 # Use `<job_name>` with the job namethat you get after starting the fine-tuning.
felafax-cli tune logs --job-id < job_name > -f

Sebutkan model fine-tuned Anda

Setelah fine-tuning selesai, Anda dapat mencantumkan semua model yang disesuaikan: Anda:

felafax-cli model list

Mengobrol dengan model fine-tuned Anda (berjalan di TPU lagi!):

Anda dapat memulai sesi terminal interaktif untuk mengobrol dengan model fine-tuned Anda:

 # Replace `<model_id>` with model id from `model list` command you ran above.
felafax-cli model chat --model-id < model_id >

Gunakan bantuan untuk menjelajahi lebih banyak perintah!

CLI dipecah menjadi tiga kelompok komando utama:

tune : Untuk memulai/menghentikan pekerjaan penyesuaian.
model : Untuk mengelola dan berinteraksi dengan model yang disesuaikan dengan Anda.
files : Untuk mengunggah/melihat file YourDataset.

Gunakan bendera --help untuk menemukan lebih banyak tentang grup perintah apa pun:

felafax-cli tune --help

AMD 405B Fine-tuning Run

Kami baru-baru ini menyempurnakan model LLAMA3.1 405B pada 8XAMD MI300X GPU menggunakan JAX, bukan Pytorch. Jax's Advanced Sharding API memungkinkan kami untuk mencapai kinerja yang hebat. Lihatlah posting blog kami untuk mempelajari tentang pengaturan dan trik sharding yang kami gunakan.

Kami melakukan fine-tuning Lora dengan semua bobot model dan parameter Lora dalam presisi bfloat16, dan dengan peringkat lora 8 dan lora alpha 16:

Ukuran Model: Bobot model LLAMA menempati sekitar 800GB VRAM.
Lora Bobots + State Optimizer: Sekitar 400GB VRAM.
Total penggunaan VRAM: 77% dari total VRAM, sekitar 1200GB.
Kendala: Karena ukuran besar model 405B, ada ruang terbatas untuk ukuran batch dan panjang urutan. Ukuran batch yang digunakan adalah 16 dan panjang urutannya adalah 64.
Kecepatan pelatihan: ~ 35 token/detik
Efisiensi Memori: Secara Konsisten sekitar 70%
Penskalaan: Dengan Jax, penskalaan mendekati linear di 8 GPU.

Grafik pemanfaatan GPU dan pemanfaatan VRAM dapat ditemukan di bawah. Namun, kita masih perlu menghitung model flops pemanfaatan (MFU). Catatan: Kami tidak dapat menjalankan versi yang dikompilasi JIT dari model 405B karena infrastruktur dan kendala VRAM (kami perlu menyelidiki ini lebih lanjut). Seluruh pelatihan menjalankan dieksekusi dalam mode Jax Eager, jadi ada potensi signifikan untuk peningkatan kinerja.