Unduh Prompt OIRL - Unduh Kode Sumber Prompt OIRL

Prompt OIRL

Kode Sumber AI

1.0.0

Unduh

? Prompt-oirl: Belajar untuk meminta LLMS dengan pengetahuan ahli (kata-kata ajaib yang dikenal?)

Implementasi dan? Tutorial untuk kertas ICLR 2024

Gambar

Tautan kertas
Tautan tinjauan terbuka

Berita

(2024.2) (Kode Internal-Reviewing) Kode dengan GPT3.5 dan Tigerbot akan dirilis.
(2024.1) Prompt-oirl telah diterima oleh ICLR'2024. Kami berharap dapat berbicara dengan Anda di Wina!
(2024.12) Prompt-oirl telah dipresentasikan pada Konferensi Neurips. Terima kasih atas semua umpan balik yang tak ternilai!
(2023.10) Kode dengan LLAMA2 telah dirilis.
(2023.10) Prompt-oirl telah ditampilkan dalam kertas penentuan posisi sebagai contoh dari perataan terbalik .
(2023.9) Prompt-oirl telah dipilih sebagai presentasi oral di lokakarya ENLSP di Neurips'2023.

Abstrak

Dalam penelitian ini, kami bertujuan untuk meningkatkan kemampuan penalaran aritmatika dari model bahasa besar (LLM) melalui optimasi cepat nol-shot. Kami mengidentifikasi tujuan ketergantungan kueri yang sebelumnya diabaikan dalam optimasi tersebut dan menjelaskan dua tantangan berikutnya yang menghambat desain teknik optimisasi yang sukses dan ekonomis. Salah satu masalah utama adalah tidak adanya metode yang efektif untuk mengevaluasi petunjuk selama inferensi ketika jawaban emas tidak tersedia. Bersamaan dengan itu, belajar melalui interaksi dengan LLMS untuk menavigasi bahasa alami yang luas yang mendorong ruang terbukti padat sumber daya. Untuk mengatasi hal ini, kami memperkenalkan prompt-oirl, yang memanfaatkan penguatan terbalik secara offline belajar untuk menarik wawasan dari secara offline mendorong data demonstrasi. Data semacam itu ada sebagai produk sampingan ketika beragam petunjuk dibandingkan pada set data yang dapat diakses terbuka. Dengan prompt-oirl, tujuan optimisasi prompt yang bergantung pada kueri dicapai dengan terlebih dahulu mempelajari model hadiah offline. Model ini dapat mengevaluasi pasangan yang dimiliki kueri tanpa mengakses LLMS. Selanjutnya, strategi Best-of-N digunakan untuk merekomendasikan prompt optimal. Evaluasi eksperimental kami di berbagai skala LLM dan dataset penalaran aritmatika menggarisbawahi kemanjuran dan kelayakan ekonomi dari pendekatan yang diusulkan.

? Contoh memotivasi

Gambar Gambar 1. Tidak ada prompt yang sempurna yang berfungsi untuk semua pertanyaan . Prompt optimal bergantung pada kueri. Namun pencarian dorongan semacam itu bisa mahal dan tidak efisien. Prompt-oirl mengoptimalkan prompt selama waktu inferensi pada tingkat yang bergantung pada kueri secara efektif dan hemat biaya. (Log obrolan asli dengan GPT4 untuk contoh yang memotivasi dapat ditemukan di kiri, kanan)

Reproduksi

Persiapan

Untuk mereproduksi hasil kami (misalnya, menggunakan llama2)

Dapatkan lisensi untuk menggunakan LLAMA-2.
Dapatkan akses ke set data: SVAMP, GSM8K, MAWPS

Buat Env Virtual

Klon Repositori

 git clone [email protected]:holarissun/Prompt-OIRL.git

Buat lingkungan virtual baru dengan Python 3.10, misalnya,

 conda create --name prompt-oirl python==3.10
conda activate prompt-oirl
cd Prompt-OIRL

Pasang persyaratan

 pip install -r requirements.txt

Mereproduksi hasil utama

Langkah 1. (Opsional, karena kami juga merilis dataset offline) menghasilkan dataset offline dengan berinteraksi dengan LLMS.

Langkah ini akan memakan waktu lama --- biasanya beberapa hari. Untuk menghindari mengulangi mahal secara komputasi seperti itu (saat menjalankan LLM pada mesin lokal) atau mahal (saat memanggil API komersial seperti GPT3.5 atau Tigerbot), kami telah merilis semua log interaktif dengan LLM yang dikumpulkan dalam percobaan kami. .

Jika Anda ingin mereproduksi dataset offline, misalnya, dengan model LLAMA2, Anda perlu bekerja di bawah Dir dari

 [email protected]:facebookresearch/llama.git

dan pindahkan Prompt-OIRL/llama_exps/llama_step1_gen_offline.py ke folder llama

Kemudian

 torchrun --nproc_per_node 1 llama_step1_gen_offline.py 
   --ckpt_dir llama-2-7b-chat/ 
   --tokenizer_path tokenizer.model 
   --max_seq_len 512 --max_batch_size 8 --prompt_idx 0 --dataset_eval gsm8k

Langkah 2. Reorganisasi data offline yang dikumpulkan

Langkah ini akan membutuhkan beberapa detik untuk menyelesaikannya, ini akan melakukan beberapa nama file dan uji-pelatihan dan menyimpan file yang sesuai ke folder baru LMllama2

 python3 llama_step2_reorg_data.py

Langkah 3. Pra-proses data offline

Langkah ini akan membutuhkan beberapa detik untuk menyelesaikannya, ini akan memproses data dan menyimpan embeddings dan label untuk pengaturan percobaan yang berbeda (yaitu, dengan ketersediaan petunjuk pelatihan yang berbeda) dengan file format .npy .

 python3 llama_step3_data_processing.py

Langkah 4. Pembelajaran Model Hadiah Proksi (yaitu, Evaluasi Prompt Offline)

Langkah ini akan memakan waktu beberapa menit hingga beberapa jam untuk menyelesaikannya, tergantung pada algoritma yang dipilih dan prosesor. Secara umum, melatih model hadiah XGBoost akan membutuhkan waktu sedikit lebih lama, dan menggunakan model hadiah LightGBM bisa lebih cepat.

 python3 llama_step4_offline_evaluation.py

Langkah 5. (offline) Optimalisasi cepat

Langkah ini akan memakan waktu beberapa menit untuk menyelesaikannya. Mengevaluasi algoritma dengan berinteraksi dengan LLM juga bisa menjadi pilihan tetapi bisa lebih lambat. Hasil di bawah pengaturan yang berbeda semua akan disimpan ke file .csv

 python3 llama_step5_offline_optimization.py

Catatan: Anda mungkin perlu mengunduh file embedding yang hilang dari tautan ini. (kebesaran untuk github, ~ 230MB)

Diskusi Terkait tentang RLHF:

Prompt-oirl mengatasi masalah yang diminta di LLMS menggunakan pendekatan RLAIF. Bagi pembaca yang juga tertarik pada RLHF dan RLAIF, dan di persimpangan antara penelitian RL dan LLM, kami akan merujuk pada makalah penentuan posisi terkait kami yang membahas RL dalam penelitian LLM: RL di era LLM: Apa yang penting? Apa yang dibutuhkan? Rlhf, mendorong, dan seterusnya.

Kutipan Bibtex

Jika Anda ingin mengutip kode atau kertas kami, silakan gunakan

 @inproceedings{sun2023query,
  title={Query-Dependent Prompt Evaluation and Optimization with Offline Inverse RL},
  author={Sun, Hao and H{"u}y{"u}k, Alihan and van der Schaar, Mihaela},
  booktitle={The Twelfth International Conference on Learning Representations},
  year={2024}
}


@article{sun2023reinforcement,
  title={Reinforcement Learning in the Era of LLMs: What is Essential? What is needed? An RL Perspective on RLHF, Prompting, and Beyond},
  author={Sun, Hao},
  journal={arXiv preprint arXiv:2310.06147},
  year={2023}
}

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-06-30
ukuran 183.25MB
Berasal dari Github

Aplikasi Terkait

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub the via/releases

2024-11-01

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
promptl

Kode Sumber AI

1.0.0
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Kode sumber lainnya

1.0.0

Informasi Terkait Semua