felafax下載felafax源代碼下載

felafax

其他源碼

1.0.0

下載

Felafax -Google Cloud TPU上的Tune Llama3.1的成本降低了30％，無縫縮放！

Felafax是使用XLA運行時繼續培訓和微調開源LLM的框架。我們負責必要的運行時設置，並提供jupyter筆記本電腦外的盒子外，才能開始。

便於使用。
易於配置培訓的各個方面（專為ML研究人員和黑客設計）。
易於擴展的訓練，從具有8個內核的單個TPU VM到包含6000個TPU核心（ 1000x ）的整個TPU POD！

我們在Felafax的目標是建立Instra，以使在非NVIDIA硬件（TPU，AWS Trainium，AMD GPU和Intel GPU）上運行AI工作負載變得更加容易。

免費芬太納

添加數據集，單擊“運行全部”，然後在Google Colab上使用免費的TPU資源運行！

Felafax支持	免費筆記本
駱駝3.1（1b，3b）	▶q在Google Colab TPU上免費啟動

當前支持的模型

Llama-3.1 JAX實施 $$ { color {red} new！} $$
- 從Pytorch轉換為JAX以提高性能
- 1B，3B，8B，70B，405B的全精度和LORA培訓支持。
- 通過JAX的硬件優化的XLA後端，有效地跨越各種硬件（TPU，AWS Trainium，NVIDIA，AMD）運行
- 通過跨多個加速器碎片來無縫縮放以處理更大的上下文長度和數據集
Llama-3/3.1 Pytorch XLA
- 洛拉和完整精確培訓支持
- CodePointer

通過Felafax CLI進行微調 $$ { color {red} new！} $$

通過幾個簡單的步驟使用Felafax CLI進行微調模型開始。

步驟1。安裝CLI並進行身份驗證

首先安裝CLI。

pip install pipx
pipx install felafax-cli

然後，生成一個身份令牌：

訪問felafax.ai並創建/登錄到您的帳戶。
導航到令牌頁面並創建一個新的令牌。

最後，使用令牌來驗證您的CLI會話：

felafax-cli auth login --token < your_token >

步驟2。設置微調配置

首先，生成用於微調的默認配置文件。此命令在具有默認的超參數值的當前目錄中生成一個config.yml文件。

felafax-cli tune init-config

其次，使用您的超參數更新配置文件：

擁抱面旋鈕：
- 提供您的擁抱面代幣和存儲庫ID來上傳微調模型。
數據集管道和培訓參數：
- 調整batch_size ， max_seq_length用於微調數據集。
- 如果您希望Trainig通過整個數據集運行，則將NUM_STEPS設置為null 。如果將num_steps設置為一個數字，則訓練將在指定的步驟數之後停止。
- 將learning_rate和lora_rank設置用於微調。
- eval_interval是評估之間的步驟數。

步驟3。開始微調運行

運行以下命令以查看您可以微調的基本模型列表，截至目前，我們支持Llama-3.1的所有變體。

felafax-cli tune start --help

現在，您可以從上面的列表和數據集名稱從HuggingFace（例如yahma/alpaca-cleaned ）啟動微調過程：

felafax-cli tune start --model < your_selected_model > --config ./config.yml --hf-dataset-id < your_hf_dataset_name >

示例命令使您入門：

felafax-cli tune start --model llama3-2-1b --config ./config.yml --hf-dataset-id yahma/alpaca-cleaned

開始微調工作後， Felafax CLI會照顧旋轉TPU，進行培訓，並將微調模型上傳到Huggingface Hub。

其他方便的命令

監視微調工作

您可以流式傳輸實時日誌以監視微調工作的進度：

 # Use `<job_name>` with the job namethat you get after starting the fine-tuning.
felafax-cli tune logs --job-id < job_name > -f

列出您的微調模型

微調完成後，您可以列出所有微調型號：

felafax-cli model list

與您的微調模型聊天（再次在TPU上運行！）：

您可以啟動交互式終端會話以與您的微調模型聊天：

 # Replace `<model_id>` with model id from `model list` command you ran above.
felafax-cli model chat --model-id < model_id >

使用幫助探索更多命令！

CLI分為三個主要命令組：

tune ：開始/停止微調工作。
model ：管理和與微調模型進行互動。
files ：上傳/查看您的數據庫文件。

使用--help標誌來發現有關任何命令組的更多信息：

felafax-cli tune --help

AMD 405B微調運行

我們最近使用JAX而不是Pytorch微調了8xAMD MI300X GPU上的Llama3.1 405b模型。 Jax的高級分片API使我們得以取得出色的性能。請查看我們的博客文章，以了解我們使用的設置和碎片技巧。

我們在Bfloat16精度中使用所有模型權重和Lora參數進行了微調，而Lora等級為8，Lora Alpha為16：

型號大小：美洲駝的型號佔據了800GB的VRAM左右。
LORA重量 +優化狀態：大約400GB的VRAM。
總VRAM使用：總VRAM的77％，約1200GB。
約束：由於405B模型的尺寸較大，因此批處理大小和序列長度的空間有限。所使用的批次尺寸為16，序列長度為64。
訓練速度： 〜35代幣/秒
記憶效率：始終大約70％
縮放：使用JAX，在8 GPU中縮放縮放接近線性。

可以在下面找到GPU利用率和VRAM利用率圖。但是，我們仍然需要計算模型FLOPS利用率（MFU）。注意：由於基礎架構和VRAM約束，我們無法運行405B模型的JIT編譯版本（我們需要進一步研究）。整個訓練運行都是在JAX急切模式下執行的，因此有很大的潛力可以改善性能。

GPU利用率：
VRAM利用率：
ROCM-SMI數據可以在此處找到。

學分：

Google Deepmind的Gemma Repo。
Easylm和Eleutherai在JAX中的美洲駝模型上的出色工作
Heegyukim進行的Pytorch XLA FSDP和SPMD測試。
pytorch-XLA回購的示例。

接觸

如果您有任何疑問，請通過[email protected]與我們聯繫。

展開

附加信息

版本 1.0.0
類型其他源碼
更新時間 2025-03-11
大小 2.43MB
來自於 Github

相關應用

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部