Llama-moss-rlhf-lora
Kode RLHF dari kode ini tidak memerlukan kerangka kerja megatron atau Deepspeed, itu hanya memerlukan obor alkimia tradisional dan kartu grafis. Kritik RLHF menggunakan versi GPT target yang dikurangi, dan hadiah kita dapat menggunakan model kesamaan yang dibandingkan dengan output target. Dengan cara ini, Anda hanya perlu mempelajari algoritma PPO inti, dan sisanya adalah model dan struktur yang telah Anda pahami. Ini sangat kondusif untuk masuknya NLPER ke RLHF, dan tampaknya hanya RLHF yang diperlukan dapat finetune model.
Llama atau Moss dapat dipilih dalam kode, dan metode optimasi LORA adalah opsional.
Fungsi:
- Definisi dan Penggunaan Format Data RLHF
- Model ini disempurnakan hanya menggunakan rlhf√
- Biarkan model mengenali master nya
- Ubah stempel baja kognitif diri
- Nama Master
- Julukan robot
- Batch menghasilkan beberapa propt yang berbeda, dan kemudian rlhf ×
Lingkungan pemasangan
Lingkungan instalasi mengacu pada persyaratan yang diekstraksi.txt, terutama obor, transformator
- Menjalankan lumut membutuhkan perpustakaan yang dipercepat
- Menjalankan lora membutuhkan peft
- Di antara mereka, PEFT telah banyak berubah karena pembaruan yang lebih cepat. Di sini Anda perlu menentukan PEFT sebagai versi 0.2.0
Cara menggunakan
0 Pilih model yang Anda butuhkan (atur model_name_or_path di rlhf_train_gpt.py, dan apakah lora diperlukan), dan preprocessing
- lumut
- llama
- Perlu melakukan kombinasi model berbasis Llama dan parameter LORA yang dilatih kembali
- python merge_llama_with_chinese_lora_to_hf.py
- Anda dapat mengatur jumlah parameter llama yang berbeda dan lora di dalamnya
- Model HF yang dihasilkan disimpan
1 Ubah nama pemilik dan nama panggilan yang Anda inginkan dan jalankan kode berikut. Untuk menghasilkan data target, Anda juga dapat menggunakan yang default.
python data / generate_data . py
2 Mulai Tanduk Pelatihan Berbasis RLHF (LORA)
python rlhf_train_gpt . py
Konsumsi sumber daya
- lumut
- Kuantitas parameter 13b
- Diperlukan empat 3090 -an, di antaranya model MOSS perlu memuat sekitar 26g melatih memori video 46g (3 gambar), dan satu lagi kritis dan hadiah diperlukan. Anda dapat mencoba A6000, yang mungkin juga berjalan.
- Total sekitar 50g memori video
- llama
- Kuantitas parameter 7b
- Dua 3090 -an diperlukan, satu untuk pemuatan dan pelatihan llama, dan satu untuk menempatkan model kritis
Tampilan Efek
Melatih sekitar 6 zaman, atau ketika rasio hampir 1, itu berarti bahwa probabilitas generasi model tidak banyak berubah, sehingga Anda dapat mengalaminya.
- Apa Meimei?
- Meimei adalah nama panggilan yang diberikan kepada saya oleh tuan saya.
- Siapa yang memberimu meme itu?
- Baba adalah nama panggilan saya.
- Sang Guru memberi saya Meimei.
- Siapa tuanmu?
- Zhang San adalah tuanku.
- Tuan saya adalah Zhang San
- Kemampuan generalisasi dipertahankan dengan sangat baik
- siapa tuanmu
- Tuan saya adalah Zhang San.
- Apa nama panggilan Anda
- Nama panggilan saya adalah Bleat.
- Apa hubungan Anda dengan Zhang San
- Apa hubungan Anda
- Meimei adalah nama panggilan yang diberikan kepada saya oleh tuan saya.
Informasi kontak
- Kelompok komunikasi
- QQ Group: 788598358
- WeChat Group: WeChat Group mungkin kedaluwarsa