LLM RLHF Tuning
1.0.0
이 프로젝트는 RLHF 3 단계 교육을 처음부터 구현하고 구현 세부 정보를 문서에 자세히 작성합니다. 모든 사람들은 커뮤니케이션하고 WeChat에 대해 토론 할 수 있습니다
오픈 소스 RLHF 교육 프레임 워크의 기능과 비교
| 액자 | SFT 열차 | RM 기차 | PPO 열차 | DPO 열차 |
|---|---|---|---|---|
| 우리의 | ✅ | ✅ | ✅ | ✅ |
| 깊은 속도 chat | ✅ | ✅ | ✅ | |
| Trl | ✅ | ✅ | ✅ | ✅ |
| 이끼-rlhf | ✅ |
| 액자 | 가속 | 딥 스피드 | 멀티 로라 | 최소 모델 매개 변수 수량 (예 : 7B) |
|---|---|---|---|---|
| 우리의 | ✅ | ✅ | ✅ | 단일 모델 크기 ~ 7b |
| 깊은 속도 chat | ✅ | SFT+RM+배우+비평가 ~ 28B | ||
| Trl | ✅ | 단일 모델 크기 (Ref Model을 사용하지 않음) ~ 7b | ||
| 이끼-rlhf | 액터 모델, 중요한 모델 | SFT 모델, RM 모델 | SFT+RM+배우+비평가 ~ 28B |
accelerate==0.21.0
datasets==2.13.1
scikit-learn==1.3.0
sentencepiece==0.1.99
tqdm==4.65.0
transformers==4.31.0
wandb==0.15.8
peft==0.4.0
torch==2.0.1
trl==0.5.0
deepspeed==0.10.0
두 가지 기본 모델을 기반으로합니다
기본 모델을 기반으로합니다
WeChat에 대해 논의하기 위해 그룹에 가입하는 데 오신 것을 환영합니다