Скачать felafax - скачать исходный код felafax

felafax

Другой исходный код

1.0.0

Скачать

Felafax - Tune LlaMa3.1 на Google Cloud TPU за 30% более низкие затраты и масштабируют плавные!

Felafax-это структура для дальнейшего обучения и тонкой настройки LLM с открытым исходным кодом с использованием времени выполнения XLA . Мы позаботимся о необходимой настройке времени выполнения и предоставляем ноутбук Jupyter, чтобы просто начать работу.

Простой в использовании.
Легко настроить все аспекты обучения (предназначенные для исследователей и хакеров ML).
Легко масштабируйте тренировку от одного виртуальной машины TPU с 8 ядрами до целого TPU POD, содержащего 6000 ядер TPU ( 1000x )!

Наша цель в Felafax состоит в том, чтобы создать инфра, чтобы упростить запуск рабочих нагрузок искусственного интеллекта на аппаратном обеспечении Non-Nvidia (TPU, AWS Tradium, AMD-графические процессоры и графические процессоры Intel).

Finetune бесплатно

Добавьте свой набор данных, нажмите «Запустить все», и вы запустите бесплатный ресурс TPU в Google Colab!

Felafax поддерживает	Бесплатные блокноты
Llama 3.1 (1b, 3b)	▶ ️ Начните бесплатно в Google Colab TPU

В настоящее время поддерживаются модели

LlaMa-3.1 JAX реализация $$ { color {red} new!} $$
- Преобразовано из Pytorch в JAX для повышения производительности
- Полная рецепция и обучающая поддержка LORA для 1B, 3B, 8B, 70B, 405B .
- Эффективно запустите разнообразное оборудование (TPU, AWS Tradium, NVIDIA, AMD) через Adware-оптимизированное аппаратное оборудование.
- Бесплано масштабировать для обработки большей длины контекста и наборов данных путем нарушения между несколькими ускорителями
Llama-3/3.1 Pytorch xla
- LORA и полноценная обучающая поддержка
- Кодепоинтер

Запуск тонкой настройки через Felafax CLI $$ { color {red} new!} $$

Начните с точной настройкой ваших моделей, используя CLI Felafax в нескольких простых шагах.

Шаг 1. Установите CLI и аутентификацию

Начните с установки CLI.

pip install pipx
pipx install felafax-cli

Затем сгенерируйте токен автора:

Посетите Felafax.ai и создайте/войдите в свою учетную запись.
Перейдите на страницу Tokens и создайте новый токен.

Наконец, аутентификация вашего сеанса CLI с помощью вашего токена:

felafax-cli auth login --token < your_token >

Шаг 2. Настройка конфигурации тонкой настройки

Во-первых, генерируйте файл конфигурации по умолчанию для точной настройки. Эта команда генерирует файл config.yml в текущем каталоге со значениями гиперпараметра по умолчанию.

felafax-cli tune init-config

Во -вторых, обновите файл конфигурации с помощью гиперпараметров:

Ручки объятия:
- Предоставьте свой токен и идентификатор репозитория Huggingface для загрузки тонкой модели.
Параметры трубопровода и обучающих наборов данных:
- Регулируйте batch_size , max_seq_length для использования для настройки данных.
- Установите num_steps в null , если вы хотите, чтобы Trainig запустил весь набор данных. Если num_steps установлен на число, обучение остановится после указанного количества шагов.
- Установите learning_rate и lora_rank для использования для точной настройки.
- eval_interval - это количество шагов между оценками.

Шаг 3. Начните сшитый пробег

Запустите команду Follow, чтобы увидеть список базовых моделей, которые вы можете точно настроить, мы поддерживаем все варианты Llama-3.1 на данный момент.

felafax-cli tune start --help

Теперь вы можете запустить процесс точной настройки с выбранной модели из вышеупомянутого списка и названия набора данных из Huggingface (например yahma/alpaca-cleaned ):

felafax-cli tune start --model < your_selected_model > --config ./config.yml --hf-dataset-id < your_hf_dataset_name >

Пример команды, чтобы заставить вас начать:

felafax-cli tune start --model llama3-2-1b --config ./config.yml --hf-dataset-id yahma/alpaca-cleaned

После того, как вы запустите работу с тонкой настройкой, Felafax CLI позаботится о том, чтобы раскрутить TPU, пропустив обучение, и он загружает тонкую модель в концентратор Huggingface.

Другие удобные команды

Следите за тонкой настройкой

Вы можете транслировать журналы в реальном времени, чтобы отслеживать прогресс вашей точной настройки:

 # Use `<job_name>` with the job namethat you get after starting the fine-tuning.
felafax-cli tune logs --job-id < job_name > -f

Перечислите свои тонко настроенные модели

После завершения точной настройки вы можете перечислить все ваши тонкие модели:

felafax-cli model list

Общайтесь с вашей тонкой моделью (снова работает на TPU!):

Вы можете начать интерактивный сеанс терминала, чтобы поболтать с вашей тонкой моделью:

 # Replace `<model_id>` with model id from `model list` command you ran above.
felafax-cli model chat --model-id < model_id >

Используйте помощь, чтобы изучить больше команд!

CLI разбит на три основные командные группы:

tune : запустить/остановить точную настройку.
model : управлять и взаимодействовать с вашими тонкими настроенными моделями.
files : загрузить/просмотреть файлы yourDataset.

Используйте флаг --help , чтобы узнать больше о любой группе команд:

felafax-cli tune --help

AMD 405B FineNuling Run

Недавно мы настраивали модель Llama3.1 405B на графических процессорах 8xAMD MI300X с использованием JAX вместо Pytorch. Усовершенствованные API -интерфейсы JAX позволили нам добиться отличной производительности. Проверьте наш пост в блоге, чтобы узнать о настройке и уловке Sharding, которые мы использовали.

Мы сделали Лору тонкую настройку со всеми весами модели и параметрами LORA в точке BFLOAT16, и с рангом Лоры 8 и Лора Альфа из 16:

Размер модели: Вес модели Llama занимают около 800 ГБ VRAM.
LORA Weights + Состояние оптимизатора: приблизительно 400 ГБ VRAM.
Общее использование VRAM: 77% от общего объема VRAM, около 1200 ГБ.
Ограничения: из -за большого размера модели 405B было ограниченное пространство для размера партии и длины последовательности. Используемый размер партии составлял 16, а длина последовательности составила 64.
Скорость тренировок: ~ 35 токенов/второй
Эффективность памяти: последовательно около 70%
Масштабирование: с JAX масштабирование было почти линейным по 8 графическим процессорам.

Графики использования GPU и использования VRAM можно найти ниже. Тем не менее, нам все еще нужно вычислить использование модельных флопов (MFU). Примечание: мы не могли запустить JIT-компилированную версию модели 405B из-за инфраструктуры и ограничений VRAM (нам нужно исследовать это дальше). Весь тренировочный запуск был выполнен в режиме JAX Ager, поэтому существует значительный потенциал для улучшения производительности.