Kode resmi untuk makalah " Glider: Router Ahli Global dan Lokal yang Digerakkan Instruksi ". Basis kode kami dibangun di atas phatgoose.
Glider -Tugas yang diselenggarakan/-out dengan koleksi ahli khusus seperti Lora pada saat yang sama!

Ketersediaan model pra-terlatih performant telah menyebabkan proliferasi model ahli yang disesuaikan dengan domain khusus. Ini telah memungkinkan penciptaan metode "model moerging" berbasis routing yang kuat dan adaptif dengan tujuan menggunakan modul ahli untuk menciptakan sistem agregat dengan peningkatan kinerja atau generalisasi. Namun, metode moerging yang ada sering memprioritaskan generalisasi untuk tugas yang tidak terlihat dengan mengorbankan kinerja pada tugas-tugas yang dipegang, yang membatasi penerapan praktisnya dalam skenario penyebaran dunia nyata. Kami mengamati bahwa mekanisme perutean tingkat token saat ini mengabaikan konteks semantik global dari tugas input. Kemandirian token-bijaksana ini menghambat seleksi ahli yang efektif untuk tugas-tugas yang diadakan, karena keputusan perutean gagal menggabungkan sifat semantik dari tugas tersebut. Untuk mengatasi hal ini, kami mengusulkan, Router Expert (Glider) yang didorong oleh instruksi global dan lokal yang mengintegrasikan mekanisme perutean multi-skala, yang mencakup router global semantik dan router lokal yang terpelajar. Global Router memanfaatkan kemampuan penalaran canggih LLM untuk konteks terkait semantik untuk meningkatkan pemilihan ahli. Mengingat kueri input dan LLM, router menghasilkan instruksi tugas semantik yang memandu pengambilan para ahli yang paling relevan di semua lapisan. Panduan global ini dilengkapi dengan router lokal yang memfasilitasi keputusan perutean tingkat token dalam setiap modul, memungkinkan kontrol yang lebih baik dan meningkatkan kinerja pada tugas yang tidak terlihat. Eksperimen kami menggunakan model berbasis T5 untuk tugas T0 dan FLAN menunjukkan bahwa Glider mencapai kinerja yang ditingkatkan secara substansial sambil mempertahankan generalisasi yang kuat pada tugas yang diadakan. Kami juga melakukan eksperimen ablasi untuk menyelam lebih dalam ke komponen glider. Eksperimen kami menyoroti pentingnya routing multi-skala kami yang memanfaatkan penalaran semantik yang digerakkan LLM untuk metode moerging.
conda create -n glider python=3.9
conda activate glider
conda install git-lfs
pip install -r requirements.txt
pip uninstall peft -y cd src && mkdir saved_runs && cd saved_runs
git lfs install
# Glider LLM-Generated task embeddings
git clone https://huggingface.co/MoE-UNC/gpt-generated-instruction-nomic-embeddings
# P3 LoRA checkpoints (derived from Phatgoose)
git clone https://huggingface.co/MoE-UNC/p3-lora-checkpoints
# FLAN LoRA checkpoints (derived from Phatgoose)
git clone https://huggingface.co/MoE-UNC/flan-lora-checkpoints
# Baseline- Arrow checkpoints
git clone https://huggingface.co/MoE-UNC/p3-lora-checkpoints-arrow
# Baseline - Merged Experts checkpoints (derived from Phatgoose)
git clone https://huggingface.co/MoE-UNC/phatgoose-checkpoints Silakan periksa perintah & komentar di src/scripts/paper-eval.sh untuk mereproduksi hasil.
@misc { li2024glidergloballocalinstructiondriven ,
title = { Glider: Global and Local Instruction-Driven Expert Router } ,
author = { Pingzhi Li and Prateek Yadav and Jaehong Yoon and Jie Peng and Yi-Lin Sung and Mohit Bansal and Tianlong Chen } ,
year = { 2024 } ,
eprint = { 2410.07172 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.LG } ,
url = { https://arxiv.org/abs/2410.07172 } ,
}