Model Bahasa Besar (LLM) menunjukkan pemahaman bahasa alami yang mengesankan di seluruh tugas. Dengan meningkatnya ukuran model bahasa, mengadaptasi mereka dengan tugas -tugas tertentu menjadi mahal secara komputasi. Pembelajaran dalam konteks telah diusulkan sebagai alternatif untuk menyempurnakan standar LLMS. Namun, mendorong umumnya berkinerja buruk di fine-tuning standar. Juga, menemukan permintaan terbaik tidak mudah, karena prosesnya rapuh misalnya, ke kata -kata dari prompt dan jumlah contoh. Untuk mengatasi masalah ini, parameter-efisien fine-tuning (PEFT) telah diusulkan. Paradigma ini menambahkan komponen modular ke model pra-terlatih; Ini disesuaikan dengan tugas target sementara LLM tidak diperbarui. Komponen PEFT telah mendedikasikan kapasitas per tugas dan memungkinkan memperbarui model tanpa melupakan pengetahuan sebelumnya, sementara komposisi modul tersebut dapat meningkatkan kemampuan multi-tugas dari LLM. PEFT dapat mencapai kinerja fine-tuning standar. Ini telah memotivasi penelitian di bidang ini dan sejumlah besar metode baru -baru ini diusulkan. Namun, untuk mengevaluasi pendekatan modular mana yang cocok untuk satu set tugas, eksperimen dengan pendekatan modular yang dipilih per tugas diperlukan. Ini seringkali membutuhkan pencarian yang lengkap untuk metode dan hiperparameter, yang sulit dalam praktiknya. Studi ini mengusulkan kriteria baru, berdasarkan matriks informasi Fisher, untuk memilih pendekatan PEFT mana yang digunakan untuk mengadaptasi LLM ke tugas tertentu. Novel A priori fisher-informed pilihan tuning awalan, adaptor, dan lora untuk transformer, fishpal, menghindari eksperimen pelatihan yang mahal dan hanya melatih satu kombinasi per tugas. Dalam percobaan tesis ini, Fishpal secara konsisten mengungguli garis dasar pada tugas lem yang berbeda sambil memperbarui hanya 2-4% dari total parameter model dan menambahkan hanya 0,4% dari parameter model dasar selama inferensi.
Semua percobaan dijalankan pada 1 Google Cloud GPU (NVIDIA T4 GPU dengan 4VCPU dan 15GB RAM di zona US-West3-B)