felafax 다운로드 felafax 소스 코드 다운로드

felafax

기타 소스코드

1.0.0

다운로드

Felafax -Google Cloud TPU의 LLAMA3.1을 30% 저렴한 비용으로 조정하고 원활하게 스케일링하십시오!

Felafax는 XLA 런타임을 사용하여 지속적인 훈련 및 미세 조정 오픈 소스 LLM을위한 프레임 워크입니다. 우리는 필요한 런타임 설정을 처리하고 시작하기 위해 Jupyter 노트북을 제공합니다.

사용하기 쉽습니다.
교육의 모든 측면을 쉽게 구성 할 수 있습니다 (ML 연구원 및 해커를 위해 설계).
8 코어가 장착 된 단일 TPU VM에서 6000 TPU 코어 ( 1000X )를 포함하는 전체 TPU 포드까지의 훈련을 쉽게 확장 할 수 있습니다!

Felafax의 목표는 Nonvidia 하드웨어 (TPU, AWS Trainium, AMD GPU 및 Intel GPU)에서 AI 워크로드를보다 쉽게 실행할 수 있도록 Infra를 구축하는 것입니다.

무료로 Finetune

데이터 세트를 추가하고 "모두 실행"을 클릭하면 Google Colab에서 무료 TPU 리소스에서 실행됩니다!

Felafax 지원	무료 노트북
라마 3.1 (1B, 3B)	▶ ️ Google Colab TPU에서 무료로 시작하십시오

현재 지원되는 모델

LLAMA-3.1 JAX 구현 $$ { color {red} new!} $$
- 성능 향상을 위해 Pytorch에서 JAX로 변환
- 1b, 3b, 8b, 70b, 405b 에 대한 전액 및 LORA 교육 지원.
- JAX의 하드웨어 최적화 된 XLA 백엔드를 통해 다양한 하드웨어 (TPU, AWS Trainium, Nvidia, AMD)를 통해 효율적으로 실행
- 여러 가속기를 가로 지르는 더 큰 컨텍스트 길이와 데이터 세트를 처리하기 위해 완벽하게 스케일
LLAMA-3/3.1 PYTORCH XLA
- LORA 및 전임 교육 지원
- CodePointer

Felafax CLI를 통해 미세 조정 실행 $$ { color {red} new!} $$

몇 가지 간단한 단계로 Felafax CLI를 사용하여 모델을 미세 조정하기 시작하십시오.

1 단계. CLI를 설치하고 인증하십시오

CLI를 설치하여 시작하십시오.

pip install pipx
pipx install felafax-cli

그런 다음 인증 토큰을 생성합니다.

felafax.ai를 방문하여 계정에 생성/로그인하십시오.
토큰 페이지로 이동하여 새 토큰을 만듭니다.

마지막으로 토큰을 사용하여 CLI 세션을 인증하십시오.

felafax-cli auth login --token < your_token >

2 단계. 미세 조정 구성을 설정하십시오

먼저 미세 조정을위한 기본 구성 파일을 생성하십시오. 이 명령은 기본 하이퍼 파라미터 값으로 현재 디렉토리에서 config.yml 파일을 생성합니다.

felafax-cli tune init-config

둘째, 하이퍼 파라미터로 구성 파일을 업데이트하십시오.

포옹 페이스 손잡이 :
- 미세 조정 된 모델을 업로드하려면 포옹 페이스 토큰 및 저장소 ID를 제공하십시오.
데이터 세트 파이프 라인 및 교육 매개 변수 :
- 미세 조정 데이터 세트에 사용할 batch_size , max_seq_length 를 조정하십시오.
- Trainig가 전체 데이터 세트를 실행하려면 NUM_steps를 null 로 설정하십시오. num_steps가 숫자로 설정되면 지정된 수의 단계 후에 훈련이 중지됩니다.
- 미세 조정에 사용하려면 learning_rate 및 lora_rank 설정하십시오.
- eval_interval 은 평가 사이의 단계 수입니다.

3 단계. 미세 조정 실행을 시작하십시오

다음 명령을 실행하려면 미세 조정할 수있는 기본 모델 목록을 확인하십시오. 현재 LLAMA-3.1의 모든 변형을 지원합니다.

felafax-cli tune start --help

이제 위 목록에서 선택한 모델과 Huggingface의 데이터 세트 이름으로 미세 조정 프로세스 yahma/alpaca-cleaned 시작할 수 있습니다.

felafax-cli tune start --model < your_selected_model > --config ./config.yml --hf-dataset-id < your_hf_dataset_name >

예제 명령을 시작하려면 :

felafax-cli tune start --model llama3-2-1b --config ./config.yml --hf-dataset-id yahma/alpaca-cleaned

미세 조정 작업을 시작한 후 Felafax CLI는 TPU를 회전시키고 교육을 실행하고 미세 조정 모델을 Huggingface 허브에 업로드합니다.

다른 편리한 명령

미세 조정 작업을 모니터링하십시오

실시간 로그를 스트리밍하여 미세 조정 작업의 진행 상황을 모니터링 할 수 있습니다.

 # Use `<job_name>` with the job namethat you get after starting the fine-tuning.
felafax-cli tune logs --job-id < job_name > -f

미세 조정 된 모델을 나열하십시오

미세 조정이 완료되면 모든 미세 조정 모델을 나열 할 수 있습니다.

felafax-cli model list

미세 조정 모델과 채팅 (TPU에서 다시 실행하십시오!) : :

대화 형 터미널 세션을 시작하여 미세 조정 된 모델과 채팅 할 수 있습니다.

 # Replace `<model_id>` with model id from `model list` command you ran above.
felafax-cli model chat --model-id < model_id >

더 많은 명령을 탐색하기 위해 도움을 사용하십시오!

CLI는 세 가지 주요 명령 그룹으로 나뉩니다.

tune : 미세 조정 작업을 시작/중지합니다.
model : 미세 조정 된 모델을 관리하고 상호 작용합니다.
files : DatASet 파일을 업로드/보기.

--help 플래그를 사용하여 모든 명령 그룹에 대해 자세히 알아보십시오.

felafax-cli tune --help

AMD 405B 미세 조정 실행

우리는 최근 Pytorch 대신 Jax를 사용하여 8xAMD MI300X GPU에서 LLAMA3.1 405B 모델을 미세 조정했습니다. Jax의 Advanced Sharding API를 통해 우리는 훌륭한 성능을 달성 할 수있었습니다. 블로그 게시물을 확인하여 우리가 사용한 설정 및 샤드 트릭에 대해 알아보십시오.

우리는 Bfloat16 정밀도의 모든 모델 가중치 및 LORA 매개 변수로 LORA 미세 조정을했고 LORA 순위는 8, Lora Alpha는 16입니다.

모델 크기 : LLAMA 모델 무게는 약 800GB의 VRAM을 차지합니다.
LORA 가중치 + 최적화 상태 : 약 400GB의 VRAM.
총 VRAM 사용 : 총 VRAM의 77%, 약 1200GB.
제약 조건 : 405b 모델의 큰 크기로 인해 배치 크기 및 시퀀스 길이에 대한 공간이 제한적이었습니다. 사용 된 배치 크기는 16이고 시퀀스 길이는 64입니다.
훈련 속도 : ~ 35 토큰/초
메모리 효율 : 지속적으로 약 70%
스케일링 : JAX의 경우 스케일링은 8 GPU에서 거의 평평했습니다.

GPU 활용 및 VRAM 사용법 그래프는 아래에서 찾을 수 있습니다. 그러나 여전히 MFU (Model Flops Utilization)를 계산해야합니다. 참고 : 인프라 및 VRAM 제약으로 인해 405B 모델의 JIT 컴파일 버전을 실행할 수 없었습니다 (이를 더 조사해야 함). 전체 교육 실행은 JAX Eger 모드에서 실행되었으므로 성능 향상에 대한 잠재력이 상당합니다.