llama-moss-rlhf-lora
이 코드의 RLHF 코드에는 메가 트론 또는 딥 스피드 프레임 워크가 필요하지 않으며 전통적인 연금술 토치 및 그래픽 카드 만 있으면됩니다. RLHF의 비평가는 감소 된 버전의 대상 GPT를 사용하고 대상 출력과 비교하는 유사성 모델을 사용할 수 있습니다. 이런 식으로, 당신은 핵심 PPO 알고리즘 만 배워야하며 나머지는 이미 이해 한 모델과 구조입니다. NLPER의 RLHF 입력에는 매우 도움이되며 RLHF 만 필요한 것으로 보입니다.
LLAMA 또는 MOSS는 코드에서 선택할 수 있으며 최적화 방법 LORA는 선택 사항입니다.
기능:
- RLHF 데이터 형식의 정의 및 사용
- RLHF√ 만 사용하여 모델이 미세 조정되었습니다
- 모델이 마스터 로바를 인식하게하십시오
- 배치는 여러 가지 다른 제안을 생성 한 다음 rlhf ×를 생성합니다
설치 환경
설치 환경은 추출 된 요구 사항을 나타냅니다 .txt, 주로 토치, 변압기
- 이끼를 실행하려면 가속 라이브러리가 필요합니다
- Lora를 실행하려면 PEFT가 필요합니다
- 그중에서도 PEFT는 더 빠른 업데이트로 인해 많은 변화를 가져 왔습니다. 여기에서 PEFT를 버전 0.2.0으로 지정해야합니다
사용 방법
0 필요한 모델 (RLHF_TRAIN_GPT.PY에서 SET Model_Name_or_Path 및 LORA가 필요한지 여부) 및 전처리
- 이끼
- 야마
- LLAMA 기반 모델과 재교수 LORA 매개 변수의 조합을 수행해야합니다.
- Python merge_llama_with_chinese_lora_to_hf.py
- 다른 llama 매개 변수 수량과 lora를 설정할 수 있습니다.
- 생성 된 HF 모델이 저장됩니다
1 소유자 이름과 닉네임을 수정하고 다음 코드를 실행하십시오. 대상 데이터를 생성하려면 기본 데이터를 사용할 수도 있습니다.
python data / generate_data . py
2 RLHF (LORA) 기반 훈련 혼을 시작하십시오
python rlhf_train_gpt . py
자원 소비
- 이끼
- 13b 매개 변수 수량
- 4 개의 3090이 필요하며, 그중에 Moss 모델은 약 26G 교육 46g 비디오 메모리 (3 장)를로드해야하며 하나 더 중요한 및 보상이 필요합니다. A6000을 시도 할 수 있습니다.
- 총 약 50g의 비디오 메모리
- 야마
- 7B 매개 변수 수량
- 라마 로딩 및 훈련을위한 2 개의 3090이 필요하며, 하나는 중요한 모델을 배치하기위한 것입니다.
효과 디스플레이
약 6 개의 에포크 또는 비율이 거의 1 인 경우 모델 생성 확률이 크게 변하지 않았으므로 경험할 수 있습니다.
- Meimei는 무엇입니까?
- 누가 당신에게 밈을 주 셨나요?
- 바바는 내 별명입니다.
- 주인은 나에게 Meimei를 주었다.
- 당신의 주인은 누구입니까?
- Zhang San은 나의 주인입니다.
- 내 주인은 Zhang San입니다
- 일반화 능력은 매우 잘 유지됩니다
- 당신의 주인은 누구입니까?
- 당신의 별명은 무엇입니까?
- Zhang San과의 관계는 무엇입니까?
- 당신의 관계는 무엇입니까?
연락처 정보
- 커뮤니케이션 그룹
- QQ 그룹 : 788598358
- WeChat Group : WeChat Group이 만료 될 수 있습니다