felafax下载felafax源代码下载

felafax

其他源码

1.0.0

下载

Felafax -Google Cloud TPU上的Tune Llama3.1的成本降低了30％，无缝缩放！

Felafax是使用XLA运行时继续培训和微调开源LLM的框架。我们负责必要的运行时设置，并提供jupyter笔记本电脑外的盒子外，才能开始。

便于使用。
易于配置培训的各个方面（专为ML研究人员和黑客设计）。
易于扩展的训练，从具有8个内核的单个TPU VM到包含6000个TPU核心（ 1000x ）的整个TPU POD！

我们在Felafax的目标是建立Instra，以使在非NVIDIA硬件（TPU，AWS Trainium，AMD GPU和Intel GPU）上运行AI工作负载变得更加容易。

免费芬太纳

添加数据集，单击“运行全部”，然后在Google Colab上使用免费的TPU资源运行！

Felafax支持	免费笔记本
骆驼3.1（1b，3b）	▶q在Google Colab TPU上免费启动

当前支持的模型

Llama-3.1 JAX实施 $$ { color {red} new！} $$
- 从Pytorch转换为JAX以提高性能
- 1B，3B，8B，70B，405B的全精度和LORA培训支持。
- 通过JAX的硬件优化的XLA后端，有效地跨越各种硬件（TPU，AWS Trainium，NVIDIA，AMD）运行
- 通过跨多个加速器碎片来无缝缩放以处理更大的上下文长度和数据集
Llama-3/3.1 Pytorch XLA
- 洛拉和完整精确培训支持
- CodePointer

通过Felafax CLI进行微调 $$ { color {red} new！} $$

通过几个简单的步骤使用Felafax CLI进行微调模型开始。

步骤1。安装CLI并进行身份验证

首先安装CLI。

pip install pipx
pipx install felafax-cli

然后，生成一个身份令牌：

访问felafax.ai并创建/登录到您的帐户。
导航到令牌页面并创建一个新的令牌。

最后，使用令牌来验证您的CLI会话：

felafax-cli auth login --token < your_token >

步骤2。设置微调配置

首先，生成用于微调的默认配置文件。此命令在具有默认的超参数值的当前目录中生成一个config.yml文件。

felafax-cli tune init-config

其次，使用您的超参数更新配置文件：

拥抱面旋钮：
- 提供您的拥抱面代币和存储库ID来上传微调模型。
数据集管道和培训参数：
- 调整batch_size ， max_seq_length用于微调数据集。
- 如果您希望Trainig通过整个数据集运行，则将NUM_STEPS设置为null 。如果将num_steps设置为一个数字，则训练将在指定的步骤数之后停止。
- 将learning_rate和lora_rank设置用于微调。
- eval_interval是评估之间的步骤数。

步骤3。开始微调运行

运行以下命令以查看您可以微调的基本模型列表，截至目前，我们支持Llama-3.1的所有变体。

felafax-cli tune start --help

现在，您可以从上面的列表和数据集名称从HuggingFace（例如yahma/alpaca-cleaned ）启动微调过程：

felafax-cli tune start --model < your_selected_model > --config ./config.yml --hf-dataset-id < your_hf_dataset_name >

示例命令使您入门：

felafax-cli tune start --model llama3-2-1b --config ./config.yml --hf-dataset-id yahma/alpaca-cleaned

开始微调工作后， Felafax CLI会照顾旋转TPU，进行培训，并将微调模型上传到Huggingface Hub。

其他方便的命令

监视微调工作

您可以流式传输实时日志以监视微调工作的进度：

 # Use `<job_name>` with the job namethat you get after starting the fine-tuning.
felafax-cli tune logs --job-id < job_name > -f

列出您的微调模型

微调完成后，您可以列出所有微调型号：

felafax-cli model list

与您的微调模型聊天（再次在TPU上运行！）：

您可以启动交互式终端会话以与您的微调模型聊天：

 # Replace `<model_id>` with model id from `model list` command you ran above.
felafax-cli model chat --model-id < model_id >

使用帮助探索更多命令！

CLI分为三个主要命令组：

tune ：开始/停止微调工作。
model ：管理和与微调模型进行互动。
files ：上传/查看您的数据库文件。

使用--help标志来发现有关任何命令组的更多信息：

felafax-cli tune --help

AMD 405B微调运行

我们最近使用JAX而不是Pytorch微调了8xAMD MI300X GPU上的Llama3.1 405b模型。 Jax的高级分片API使我们得以取得出色的性能。请查看我们的博客文章，以了解我们使用的设置和碎片技巧。

我们在Bfloat16精度中使用所有模型权重和Lora参数进行了微调，而Lora等级为8，Lora Alpha为16：

型号大小：美洲驼的型号占据了800GB的VRAM左右。
LORA重量 +优化状态：大约400GB的VRAM。
总VRAM使用：总VRAM的77％，约1200GB。
约束：由于405B模型的尺寸较大，因此批处理大小和序列长度的空间有限。所使用的批次尺寸为16，序列长度为64。
训练速度： 〜35代币/秒
记忆效率：始终大约70％
缩放：使用JAX，在8 GPU中缩放缩放接近线性。

可以在下面找到GPU利用率和VRAM利用率图。但是，我们仍然需要计算模型FLOPS利用率（MFU）。注意：由于基础架构和VRAM约束，我们无法运行405B模型的JIT编译版本（我们需要进一步研究）。整个训练运行都是在JAX急切模式下执行的，因此有很大的潜力可以改善性能。

GPU利用率：
VRAM利用率：
ROCM-SMI数据可以在此处找到。

学分：

Google Deepmind的Gemma Repo。
Easylm和Eleutherai在JAX中的美洲驼模型上的出色工作
Heegyukim进行的Pytorch XLA FSDP和SPMD测试。
pytorch-XLA回购的示例。

接触

如果您有任何疑问，请通过[email protected]与我们联系。

展开

附加信息

版本 1.0.0
类型其他源码
更新时间 2025-03-11
大小 2.43MB
来自于 Github

felafax

Felafax -Google Cloud TPU上的Tune Llama3.1的成本降低了30％，无缝缩放！

免费芬太纳

当前支持的模型

通过Felafax CLI进行微调 $$ { color {red} new！} $$

步骤1。安装CLI并进行身份验证

步骤2。设置微调配置

步骤3。开始微调运行

其他方便的命令

监视微调工作

列出您的微调模型

与您的微调模型聊天（再次在TPU上运行！）：

使用帮助探索更多命令！

AMD 405B微调运行

学分：

接触

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express