รหัสอย่างเป็นทางการสำหรับกระดาษ " เครื่องร่อน: เราเตอร์ผู้เชี่ยวชาญด้านการสอนระดับโลกและระดับท้องถิ่น " codebase ของเราสร้างขึ้นบน phatgoose
Glider -Solve Held-in/-out งานพร้อมคอลเลกชันของผู้เชี่ยวชาญพิเศษเช่น Lora ในเวลาเดียวกัน!

ความพร้อมใช้งานของโมเดลที่ผ่านการฝึกอบรมมาก่อนนักแสดงนำไปสู่การเพิ่มจำนวนของแบบจำลองผู้เชี่ยวชาญที่ได้รับการปรับแต่งซึ่งมีความเชี่ยวชาญในโดเมนเฉพาะ สิ่งนี้ได้เปิดใช้งานวิธีการ "โมเดลโมเดลโมเดล" ที่มีประสิทธิภาพและปรับตัวได้ซึ่งเป็นเป้าหมายของการกำหนดเส้นทางโดยมีเป้าหมายในการใช้โมดูลผู้เชี่ยวชาญเพื่อสร้างระบบรวมที่มีประสิทธิภาพหรือการวางนัยทั่วไปที่ดีขึ้น อย่างไรก็ตามวิธีการ Moerging ที่มีอยู่มักจะจัดลำดับความสำคัญของการวางนัยทั่วไปให้กับงานที่มองไม่เห็นด้วยค่าใช้จ่ายของประสิทธิภาพในงานที่จัดขึ้นซึ่ง จำกัด การบังคับใช้ในทางปฏิบัติในสถานการณ์การปรับใช้ในโลกแห่งความเป็นจริง เราสังเกตว่ากลไกการกำหนดเส้นทางระดับโทเค็นปัจจุบันละเลยบริบทความหมายทั่วโลกของงานอินพุต ความเป็นอิสระของโทเค็นที่ชาญฉลาดนี้เป็นอุปสรรคต่อการเลือกผู้เชี่ยวชาญที่มีประสิทธิภาพสำหรับงานที่จัดขึ้นเนื่องจากการตัดสินใจเส้นทางล้มเหลวในการรวมคุณสมบัติความหมายของงาน เพื่อแก้ไขปัญหานี้เราเสนอเราเตอร์ผู้เชี่ยวชาญด้านการเรียนการสอนระดับโลกและระดับท้องถิ่นที่ขับเคลื่อนด้วย (เครื่องร่อน) ซึ่งรวมกลไกการกำหนดเส้นทางหลายระดับรวมถึงเราเตอร์ทั่วโลกที่มีความหมายและเราเตอร์ในท้องถิ่นที่เรียนรู้ เราเตอร์ทั่วโลกใช้ประโยชน์จากความสามารถในการใช้เหตุผลขั้นสูงของ LLM สำหรับบริบทที่เกี่ยวข้องกับความหมายเพื่อเพิ่มการเลือกผู้เชี่ยวชาญ ด้วยการสืบค้นอินพุตและ LLM เราเตอร์จะสร้างคำแนะนำในงานความหมายที่เป็นแนวทางในการดึงข้อมูลผู้เชี่ยวชาญที่เกี่ยวข้องมากที่สุดในทุกเลเยอร์ คำแนะนำระดับโลกนี้ได้รับการเสริมโดยเราเตอร์ในท้องถิ่นที่อำนวยความสะดวกในการตัดสินใจเส้นทางระดับโทเค็นภายในแต่ละโมดูลทำให้สามารถควบคุมได้ดีขึ้นและประสิทธิภาพที่เพิ่มขึ้นในงานที่มองไม่เห็น การทดลองของเราโดยใช้โมเดลที่ใช้ T5 สำหรับงาน T0 และ Flan แสดงให้เห็นว่าเครื่องร่อนได้รับการปรับปรุงประสิทธิภาพการทำงานอย่างมีนัยสำคัญในขณะที่ยังคงรักษาความเป็นงานทั่วไปที่แข็งแกร่งในงานที่จัดขึ้น นอกจากนี้เรายังทำการทดลองด้วยการระเหยเพื่อดำน้ำลึกลงไปในส่วนประกอบของเครื่องร่อน การทดลองของเราเน้นถึงความสำคัญของการกำหนดเส้นทางหลายระดับของเราซึ่งใช้ประโยชน์จากการใช้เหตุผลเชิงความหมายที่ขับเคลื่อนด้วย LLM สำหรับวิธีการที่ Moerging
conda create -n glider python=3.9
conda activate glider
conda install git-lfs
pip install -r requirements.txt
pip uninstall peft -y cd src && mkdir saved_runs && cd saved_runs
git lfs install
# Glider LLM-Generated task embeddings
git clone https://huggingface.co/MoE-UNC/gpt-generated-instruction-nomic-embeddings
# P3 LoRA checkpoints (derived from Phatgoose)
git clone https://huggingface.co/MoE-UNC/p3-lora-checkpoints
# FLAN LoRA checkpoints (derived from Phatgoose)
git clone https://huggingface.co/MoE-UNC/flan-lora-checkpoints
# Baseline- Arrow checkpoints
git clone https://huggingface.co/MoE-UNC/p3-lora-checkpoints-arrow
# Baseline - Merged Experts checkpoints (derived from Phatgoose)
git clone https://huggingface.co/MoE-UNC/phatgoose-checkpoints โปรดตรวจสอบคำสั่งและความคิดเห็นใน src/scripts/paper-eval.sh สำหรับการทำซ้ำผลลัพธ์
@misc { li2024glidergloballocalinstructiondriven ,
title = { Glider: Global and Local Instruction-Driven Expert Router } ,
author = { Pingzhi Li and Prateek Yadav and Jaehong Yoon and Jie Peng and Yi-Lin Sung and Mohit Bansal and Tianlong Chen } ,
year = { 2024 } ,
eprint = { 2410.07172 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.LG } ,
url = { https://arxiv.org/abs/2410.07172 } ,
}