เราเชื่อว่าความรู้พารามิเตอร์ใน LLMs ยังคงเป็นพื้นที่ที่ยังไม่ได้สำรวจส่วนใหญ่และเราหวังว่าที่เก็บนี้จะให้ข้อมูลเชิงลึกที่มีค่าแก่คุณ!? ? ️?
การถอดรหัสเซลล์ประสาทคุณลักษณะพิเศษใน LLM ด้วยเลเยอร์การฉายรอบสุดท้าย
[LOGITS LENS, การวิเคราะห์เซลล์ประสาทแบบสอบถาม]
วิทยานิพนธ์ของเซลล์ประสาทความรู้เกี่ยวข้องกับความรู้อย่างไร?
Jingcheng Niu, Andrew Liu, Zining Zhu, Gerald Penn iclr'24 (สปอตไลท์)
กลไกความรู้ในแบบจำลองภาษาขนาดใหญ่: การสำรวจและมุมมอง
Mengru Wang, Yunzhi Yao, Ziwen Xu, Shuofei Qiao, Shumin Deng, Peng Wang, Xiang Chen, Jia-Chen Gu, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen, Ningyu Zhang การค้นพบ emnlp'24
การแยกความทรงจำและความสามารถในการใช้เหตุผลในรูปแบบภาษาขนาดใหญ่
Mingyu Jin, Weidi Luo, Sitao Cheng, Xinyi Wang, Wenyue Hua, Ruixiang Tang, William Yang Wang, Yongfeng Zhang preprint'24
การล่มสลายทางภาษา: การยุบของระบบประสาทในรูปแบบภาษา (ขนาดใหญ่)
Robert Wu, Vardan Papyan nips'24
การทำความเข้าใจการมีปฏิสัมพันธ์ระหว่างความรู้พารามิเตอร์และบริบทสำหรับแบบจำลองภาษาขนาดใหญ่
Sitao Cheng, Liangming Pan, Xunjian Yin, Xinyi Wang, William Yang Wang preprint'24
การประเมินการหลอมรวมความรู้ภายนอกและพารามิเตอร์ของแบบจำลองภาษาขนาดใหญ่
Hao Zhang, Yuyang Zhang, Xiaoguang Li, Wenxuan Shi, Haonan Xu, Huanshuo Liu, Yasheng Wang, Lifeng Shang, Qun Liu, Yong Liu, Ruiming Tang preprint'24
กิ้งก่าแบบปรับตัวหรือความเฉื่อยชาที่ดื้อรั้น: เปิดเผยพฤติกรรมของแบบจำลองภาษาขนาดใหญ่ในความขัดแย้งความรู้
Jian Xie, Kai Zhang, Jiangjie Chen, Renze Lou, Yu Su iclr'24 สปอตไลท์
ความรู้เอนโทรปีการสลายตัวในระหว่างรูปแบบภาษาที่เป็นอุปสรรคต่อการได้มาซึ่งความรู้ใหม่
Jiyeon Kim, Hyunji Lee, Hyowon Cho, Joel Jang, Hyeonbin Hwang, Seungpil Won, Youbin Ahn, Dohaeng Lee, Minjoon Seo preprint'24
เมื่อบริบทนำไปสู่ แต่หน่วยความจำพารามิเตอร์จะตามมาในรูปแบบภาษาขนาดใหญ่
Yufei Tao, Adam Hiatt, Erik Haake, Antonie J. Jetter, Ameeta Agrawal emnlp'24
การระบุแหล่งความรู้ระดับเซลล์ประสาทในแบบจำลองภาษาขนาดใหญ่
Zeping Yu, Sophia Ananiadou emnlp'24
ตัดการเรียกคืนความสัมพันธ์ที่เป็นข้อเท็จจริงในรูปแบบภาษาที่ไม่เร่งรีบ [รหัส]
Mor Geva, Jasmijn Bastings, Katja Filippova, Amir Globerson emnlp'23
เลเยอร์ฟีดไปข้างหน้าของหม้อแปลงเป็นความทรงจำสำคัญ
Mor Geva, Roei Schuster, Jonathan Berant, Omer Levy emnlp'21
การแปลความรู้มีความเป็นจริงหรือไม่? ความแตกต่างที่น่าประหลาดใจระหว่างเอนทิตีและมุมมองความสัมพันธ์ในแบบจำลองภาษา
Yifan Wei, Xiaoyan Yu, Yixuan Weng, Huanhuan MA, Yuanzhe Zhang, Jun Zhao, Kang Liu cikm'24
ค้นหาและแก้ไขความสัมพันธ์ที่เป็นข้อเท็จจริงใน GPT
Kevin Meng, David Bau, Alex Andonian, Yonatan Belinkov nips'22
การระบุเซลล์ประสาทที่เกี่ยวข้องกับแบบสอบถามในแบบจำลองภาษาขนาดใหญ่สำหรับข้อความแบบยาว
Lihu Chen, Adam Dejl, Francesca Toni preprint'24
การเปิดเผยความรู้พารามิเตอร์ของแบบจำลองภาษา: เฟรมเวิร์กแบบครบวงจรสำหรับวิธีการระบุแหล่งที่มา
Haeun Yu, Pepa Atanasova, Isabelle Augenstein acl'24
โมเดลภาษาขนาดใหญ่มีเซลล์ประสาทเฉพาะงานหรือไม่
Ran Song, Shizhu HE, ปิดเจียง, Yantuan Xian, Shengxiang Gao, Kang Liu และ Zhengtao Yu emnlp'24
การเดินทางไปยังศูนย์กลางของเซลล์ประสาทความรู้: การค้นพบเซลล์ประสาทความรู้ที่ไม่ขึ้นกับภาษาและเซลล์ประสาทความรู้ที่เสื่อมสภาพ
Yuheng Chen, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao aaai'24
เซลล์ประสาทความรู้ในหม้อแปลงที่ผ่านการฝึกอบรม
Damai Dai, Li Dong, Yaru Hao, Zhifang Sui, Baobao Chang, Furu Wei acl'22
การแยกลิ้นออกจากความคิด: การแก้ไขการเปิดใช้งานเผยให้เห็นการแสดงแนวคิดภาษาที่ไม่เชื่อเรื่องพระเจ้าในหม้อแปลง
Clément Dumas, Chris Wendler, Veniamin Veselovsky, Giovanni Monea, Robert West iclr'24 สปอตไลท์
จากใช่คนไปจนถึงผู้เล่าเรื่องความจริงที่พูดถึงเรื่องการทำ sycophancy ในรูปแบบภาษาขนาดใหญ่ที่มีการปรับจูน
Wei Chen, Zhen Huang, Liang Xie, Binbin Lin, Houqiang Li, Le Lu, Xinmei Tian, เติ้ง Cai, Yonggang Zhang, Wenxiao Wang, Xu Shen, Jieping Ye icml'24
เซลล์ประสาทเฉพาะภาษา: กุญแจสู่ความสามารถในการพูดได้หลายภาษาในรูปแบบภาษาขนาดใหญ่
Tianyi Tang, Wenyang Luo, Haoyang Huang, Dongdong Zhang, Xiaolei Wang, Xin Zhao, Furu Wei, Ji-Rong Wen acl'24
พวงมาลัยหลายพื้นที่ของแบบจำลองภาษาขนาดใหญ่ที่มีองค์ประกอบการเปิดใช้งานแบบไดนามิก
Daniel Scalena, Gabriele Sarti, Malvina Nissim ACL'24 การประชุมเชิงปฏิบัติการ BlackBoxNLP
สำรวจประโยชน์ของการเปิดใช้งาน sparsity ในการฝึกอบรมก่อน
[Moe, การเปิดใช้งาน sparsity, รูปแบบการเปิดใช้งาน, ความเร็วในการอนุมาน] Zhengyan Zhang, Chaojun Xiao, Qiujieli Qin, Yankai Lin, Zhiyuan Zeng, Xu Han, Zhiyuan Liu, Ruobing Xie, Maosong Sun, Jie Zhou icml'24
การเปิดใช้งานเพิ่มเติม: แบบจำลองภาษาพวงมาลัยโดยไม่ต้องเพิ่มประสิทธิภาพ
Alexander Matt Turner, Lisa Thiergart, Gavin Leech, David Udell, Juan J. Vazquez, Ulisse Mini, Monte MacDiarmid preprint'23
deja vu: บริบท sparsity สำหรับ LLM ที่มีประสิทธิภาพในเวลาอนุมาน
[Sparsity, Speedup การอนุมาน] Zichang Liu, Jue Wang, Tri Dao, Tianyi Zhou, Binhang Yuan, Zhao Song, Anshumali Shrivastava, Ce Zhang, Yuandong Tian, Christopher RE, Beidi Chen icml'23
การศึกษาที่ครอบคลุมเกี่ยวกับการแก้ไขความรู้สำหรับแบบจำลองภาษาขนาดใหญ่
Ningyu Zhang, Yunzhi Yao, Bozhong Tian, Peng Wang, Shumin Deng, Mengru Wang, Zekun Xi, Shengyu Mao, Jintian Zhang, Yuansheng Ni, Siyuan Cheng, Ziwen Xu, Xin Xu เหลียง, Zhiqiang Zhang, Xiaowei Zhu, Jun Zhou, Huajun Chen preprint'24
ชื่อเสียง: ไปสู่การแก้ไขแบบจำลองหลายงานที่มีข้อเท็จจริง Li Zeng, Yingyu Shan, Zeming Liu, Jiashu Yao, Yuhang Guo emnlp'24
ลืมหรือไม่? สู่ความรู้เชิงปฏิบัติที่ไม่ได้รับการเรียนรู้สำหรับแบบจำลองภาษาขนาดใหญ่
Bozhong Tian, Xiaozhuan Liang, Siyuan Cheng, Qingbin Liu, Mengru Wang, Dianbo Sui, Xi Chen, Huajun Chen, Ningyu Zhang การค้นพบ emnlp'24
ทำความเข้าใจกับการล่มสลายของ LLM ในการแก้ไขแบบจำลอง
Wanli Yang, Fei Sun, Jiajun Tan, Xinyu Ma, Du Su, Dawei Yin, Huawei Shen การค้นพบ emnlp'24
เป็นไปได้ไหมที่จะแก้ไขโมเดลภาษาขนาดใหญ่ที่แข็งแกร่ง?
Xinbei Ma, Tianjie Ju, Jiyang Qiu, Zhuosheng Zhang, Hai Zhao, Lifeng Liu, Yulong Wang preprint'24
การแก้ไขความรู้ที่เพิ่มขึ้นในแบบจำลองภาษาสำหรับการตอบคำถามแบบหลายคำถาม
Yucheng Shi, Qiaoyu Tan, Xuansheng Wu, Shaochen Zhong, Kaixiong Zhou, Ninghao Liu cikm'24
การถอดความแฝง: การก่อกวนบนเลเยอร์ช่วยเพิ่มการฉีดความรู้ในแบบจำลองภาษา
Minki Kang, Sung Ju Hwang, Gibbeum Lee, Jaewoong Cho nips'24
เรียนรู้ที่จะแก้ไข: จัดตำแหน่ง LLM กับการแก้ไขความรู้
Yuxin Jiang, Yufei Wang, Chuhan Wu, Wanjun Zhong, Xingshan Zeng, Jiahui Gao, Liangyou Li, Xin Jiang, Lifeng Shang, Ruiming Tang, Qn Liu, Wei Wang acl'24
การตรวจสอบและแก้ไขการเป็นตัวแทนความรู้ในรูปแบบภาษา
Evan Hernandez, Belinda Z. Li, Jacob Andreas Colm'24
ลืมไปก่อนการเรียนรู้: ใช้ประโยชน์ทางคณิตศาสตร์พารามิเตอร์สำหรับการอัปเดตความรู้ในรูปแบบภาษาขนาดใหญ่
Shiwen Ni, Dingwei Chen, Chengming Li, Xiping Hu, Ruifeng Xu, Min Yang acl'24
ethos: แก้ไขแบบจำลองภาษาในพื้นที่พารามิเตอร์มุมฉาก
[toxic/bias unlerearning, SVD, การวิเคราะห์ความรู้พารามิเตอร์, เวกเตอร์งาน]
naacl'24 การค้นพบ
การแก้ไขแบบจำลองภาษาขนาดใหญ่: ปัญหาวิธีการและโอกาส
Yunzhi Yao, Peng Wang, Bozhong Tian, Siyuan Cheng, Zhoubo Li, Shumin Deng, Huajun Chen, Ningyu Zhang emnlp'23
ค้นหาและแก้ไขความสัมพันธ์ที่เป็นข้อเท็จจริงใน GPT
Kevin Meng, David Bau, Alex Andonian, Yonatan Belinkov nips'22
การแก้ไขโมเดลตามหน่วยความจำในระดับ
Eric Mitchell, Charles Lin, Antoine Bosselut, Christopher D. Manning, Chelsea Finn iclr'22
การแก้ไขความรู้จริงในรูปแบบภาษา
Nicola de Cao, Wilker Aziz, Ivan Titov emnlp'21
เครือข่ายประสาทที่แก้ไขได้
Anton Sinitsin, Vsevolod Plokhotnyuk, Dmitriy Pyrkin, Sergei Popov, Artem Babenko iclr'20
Ming Zhong, Chenxin An, Weizhu Chen, Jiawei Han, Pengcheng HE iclr'24
เริ่มต้นโมเดลที่มีขนาดใหญ่ขึ้น
Zhiqiu Xu, Yanjie Chen, Kirill Vishniakov, Yida Yin, Zhiqiang Shen, Trevor Darrell, Lingjie Liu, Zhuang Liu iclr'24 สปอตไลท์
การควบคุมข้ามแบบจำลอง: การปรับปรุงแบบจำลองภาษาขนาดใหญ่หลายแบบในการฝึกอบรมครั้งเดียว
Jiayi Wu, Hao Sun, Hengyi Cai, Lixin Su, Shuaiqiang Wang, Dawei Yin, Xiang Li, Ming Gao nips'24
การผสมผสานความรู้ของแบบจำลองภาษาขนาดใหญ่
Fanqi Wan, Xinting Huang, Deng Cai, Xiaojun Quan, Wei BI, Shuming Shi iclr'24
การปรับโมเดลภาษาโดยพร็อกซี
Alisa Liu, Xiaochuang Han, Yizhong Wang, Yulia Tsvetkov, Yejin Choi, Noah A. Smith Colm'24
เวกเตอร์แชท: วิธีง่ายๆในการจัดเตรียม LLM ด้วยคำสั่งต่อไปนี้และการจัดตำแหน่งแบบจำลองในภาษาใหม่
[เวกเตอร์งาน, ความรู้พารามิเตอร์, การถ่ายโอนความรู้]
acl'24
Fedmkt: การถ่ายโอนความรู้ร่วมกันแบบรวมสำหรับแบบจำลองภาษาขนาดใหญ่และขนาดเล็ก
[การเรียนรู้จากสหพันธรัฐ, การถ่ายโอนความรู้, การจัดตำแหน่งโทเค็นที่แตกต่างกัน]
Coling'25
ฟังก์ชั่นเวกเตอร์ในรูปแบบภาษาขนาดใหญ่
[ฟังก์ชั่นเวกเตอร์, การไกล่เกลี่ยเชิงสาเหตุ, กลไกการตีความ]
iclr'24
ปรับแต่งการปรับแต่งแบบจำลองภาษาขนาดใหญ่ผ่านเวกเตอร์คำแนะนำ
[การลืมหายนะ, เวกเตอร์ฟังก์ชั่น, การไกล่เกลี่ยเชิงสาเหตุ]
preprint'24
KLF: การแปลความรู้และการหลอมรวมสำหรับการเรียนรู้แบบจำลองภาษาอย่างต่อเนื่อง
[การลืมหายนะการเรียนรู้อย่างต่อเนื่องสถานที่ตั้งตามความรู้สึก]
acl'24
แบบจำลองภาษาคือ Super Mario: ความสามารถในการดูดซับจากโมเดล homologous เป็นอาหารกลางวันฟรี
[การถ่ายโอนความรู้, การรวมแบบจำลอง, ทักษะที่มีประสิทธิภาพ] ICML'24
Beyond task vectors: การเลือกงานเลขคณิตตามตัวชี้วัดความสำคัญ
[เวกเตอร์งาน, คะแนนความสำคัญตามความรู้สึก, การรวมแบบจำลอง] Preprint'24
การเพิ่มประสิทธิภาพซึ่งกันและกันของแบบจำลองภาษาขนาดใหญ่และขนาดเล็กที่มีการถ่ายโอนความรู้ข้าม Silo
Yongheng Deng, Ziqing Qiao, Ju Ren, Yang Liu, Yaoxue Zhang preprint'23
เรียนรู้ที่จะเติบโตแบบจำลองที่ผ่านการฝึกอบรมสำหรับการฝึกอบรมหม้อแปลงที่มีประสิทธิภาพ
Peihao Wang, Rameswar Panda, Lucas Torroba Hennigen, Philip Greengard, Leonid Karlinsky, Rogerio Feris, David D. Cox, Zhangyang Wang, Yoon Kim iclr'23
การถ่ายโอนความรู้ตามการดึงข้อมูล: วิธีการที่มีประสิทธิภาพสำหรับการบีบอัดแบบจำลองภาษาขนาดใหญ่สุดขีด
Jiduan Liu, Jiahao Liu, Qifan Wang, Jingang Wang, Xunliang Cai, Dongyan Zhao, Ran Lucien Wang, Rui Yan การค้นพบ emnlp'23
แบบจำลองการแก้ไขด้วยเลขคณิตงาน
[งาน vecotr, ความรู้พารามิเตอร์, การถ่ายโอนความรู้, การเรียนรู้หลายงาน]
iclr'23
การแปลทักษะเฉพาะงานในแบบจำลองภาษาที่ปรับแต่ง
[การถ่ายโอนความรู้, การรับสินบนแบบจำลอง, การแปลพารามิเตอร์ทักษะ]
icml'23
การเขียนโมดูลที่ประหยัดพารามิเตอร์ด้วยการดำเนินการทางคณิตศาสตร์
[Peft, เวกเตอร์งาน, โมเดลผสาน]
nips'23
DataLess ความรู้ฟิวชั่นโดยการรวมน้ำหนักของแบบจำลองภาษา
[Model Merge]
iclr'23
การกลั่นน้ำหนัก: การถ่ายโอนความรู้ในพารามิเตอร์เครือข่ายประสาท
Ye Lin, Yanyang Li, Ziyang Wang, Bei Li, Quan Du, Tong Xiao, Jingbo Zhu acl'21
พวงมาลัยหลายพื้นที่ของแบบจำลองภาษาขนาดใหญ่ที่มีองค์ประกอบการเปิดใช้งานแบบไดนามิก
Daniel Scalena, Gabriele Sarti, Malvina Nissim ACL'24 การประชุมเชิงปฏิบัติการ BlackBoxNLP
การฝังคำนั้นเป็นแบบจำลองภาษา
[พวงมาลัยฝังคำ, การควบคุมการสร้าง] ACL'24
Alexander Matt Turner, Lisa Thiergart, Gavin Leech, David Udell, Juan J. Vazquez, Ulisse Mini, Monte MacDiarmid preprint'23
พรอมต์เคดี: การกลั่นความรู้ที่เป็นมิตรกับนักเรียนสำหรับแบบจำลองภาษากำเนิดผ่านการปรับจูน (หมายเหตุ: ไม่ใช่พารามิเตอร์)
Gyeongman Kim, Doohyuk Jang, Eunho Yang การค้นพบ emnlp'24
ตั้งแต่การฝึกอบรมอินสแตนซ์ไปจนถึงการเรียนรู้การเรียนการสอน: งานอะแดปเตอร์งานสร้างจากคำแนะนำ
Huanxuan Liao, Yao Xu, Shizhu HE, Yuanzhe Zhang, Yanchao Hao, Shengping Liu, Kang Liu, Jun Zhao nips'24
เมื่อทารกสอนเด็กทารก: ความรู้ของนักเรียนสามารถแบ่งปันการกลั่นที่เป็นครูแนะนำที่ดีกว่าครูในชุดข้อมูลขนาดเล็กได้หรือไม่?
Srikrishna Iyer Emnlp'24 การประชุมเชิงปฏิบัติการ Conll
OneBit: ไปสู่รูปแบบภาษาขนาดใหญ่ที่ต่ำมาก
Yuzhuang Xu, Xu Han, Zonghan Yang, Shuo Wang, Qingfu Zhu, Zhiyuan Liu, Weidong Liu, Wanxiang Che nips'24
ค่าใช้จ่ายในการบีบอัด: การตรวจสอบผลกระทบของการบีบอัดต่อความรู้พารามิเตอร์ในแบบจำลองภาษา
Satya Sai Srinath Namburi, Takeh Sreedhar, Srinath Srinivasan, Frederic Sala การค้นพบ emnlp'23
การกระตุ้นการเพิ่มขึ้น: การเรียนรู้ที่จะปลุกความรู้ภายในของแบบจำลองภาษาขนาดใหญ่สำหรับการตอบคำถาม
[Hypernet, Rag, บริบทการบีบอัด]
Huanxuan Liao, Shizhu HE, Yao Xu, Yuanzhe Zhang, Kang Liu, Shengping Liu, Jun Zhao aaai'25
การฉีดหน่วยความจำ: การแก้ไขความล้มเหลวในการใช้เหตุผลหลายครั้งในระหว่างการอนุมานในรูปแบบภาษาที่ใช้หม้อแปลง
Mansi Sakarvadia, Aswathy Ajith, Arham Khan, Daniel Grzenda, Nathaniel Hudson, André Bauer, Kyle Chard, Ian Foster การนำเสนอด้วยปาก
แยกความรู้จากพารามิเตอร์สำหรับการสร้างแบบจำลองภาษาแบบปลั๊กแอนด์เพลย์
Xin Cheng, Yankai Lin, Xiuying Chen, Dongyan Zhao, Rui Yan การค้นพบ acl'23
การฉีดความรู้ในพารามิเตอร์: การรวมข้อมูลบริบทชั่วคราวเข้ากับพารามิเตอร์แบบจำลอง
ส่งไปยัง IClr'25
KFORMER: การฉีดความรู้ในเลเยอร์ฟีดไปข้างหน้าหม้อแปลง
Yunzhi Yao, Shaohan Huang, Li Dong, Furu Wei, Huajun Chen, Ningyu Zhang nlpcc'22
KASA: การปรับค่าเอกพจน์ที่มีความรู้แปลก ๆ ของแบบจำลองภาษาขนาดใหญ่
[Lora Awhine-Aware, SVD]
Fan Wang, Juyong Jiang, Chansung Park, Sunghun Kim, Jing Tang preprint'24
Corda: การปรับเปลี่ยนการสลายตัวของบริบทของแบบจำลองภาษาขนาดใหญ่สำหรับการปรับแต่งพารามิเตอร์ที่รับรู้อย่างมีประสิทธิภาพ
[Lora Awhine-Aware, SVD]
Yibo Yang, Xiaojie Li, Zhongzhu Zhou, Shuaiwen Leon Song, Jianlong Wu, Liqiang Nie, Bernard Ghanem nips'24
Dora: การปรับระดับต่ำที่ลดน้ำหนัก
[Lora ที่ได้รับการวิเคราะห์จากน้ำหนัก, SVD, การวิเคราะห์ FT และ Lora] Shih-Yang Liu, Chien-Yi Wang, Hongxu Yin, Pavlo Molchanov, Yu-Chiang Frank Wang, Cheng Cheng, Chen icml'24 ช่องปาก
การปรับระดับต่ำด้วยการปรับปรุงคุณสมบัติที่เกี่ยวข้องกับงานสำหรับแบบจำลองภาษาที่ปรับแต่ง
[Lora ที่รับรู้งาน, การเพิ่มประสิทธิภาพการเป็นตัวแทนที่ซ่อนอยู่] Aaai'25 Workshop Colorai
เรียนรู้เพิ่มเติม แต่รบกวนน้อยลง: พารามิเตอร์การเรียนรู้อย่างต่อเนื่อง
[การเรียนรู้อย่างต่อเนื่อง, พารามิเตอร์ที่มีประสิทธิภาพ, การถ่ายโอนความรู้] NIPS'24
นางแบบของฉันจะลืมอะไร? การพยากรณ์ตัวอย่างที่ถูกลืมในการปรับแต่งรูปแบบภาษา
[การลืมหายนะการคาดการณ์การลืมการวิเคราะห์] ICML'24 Spotlight
XRAG: การบีบอัดบริบทอย่างสุดขีดสำหรับรุ่นที่เรียกคืนด้วยโทเค็นหนึ่งโทเค็น
[บริบทการบีบอัด, ผ้าขี้ริ้ว, การหลอมรวมหลายรูปแบบ] NIPS'24
Longembed: ขยายโมเดลการฝังสำหรับการดึงบริบทที่ยาวนาน
[บริบทยาว, แบบจำลองการฝัง, เกณฑ์มาตรฐาน] EMNLP'24
llm อาจจะ longlm: หน้าต่างบริบท LLM ขยายตัวเองโดยไม่ต้องปรับแต่ง
[บริบทยาวขยาย, วิธีการแบบปลั๊กและเล่น] ICML'24 Spotlight
สองหินตีนกหนึ่งตัว: การเข้ารหัสตำแหน่ง Bilevel
[บริบทยาวขยาย, PE + PE สัมพัทธ์, plug-and-play แต่วิธีการฝึกอบรม] ICML'24
เส้นด้าย: การขยายหน้าต่างบริบทที่มีประสิทธิภาพของแบบจำลองภาษาขนาดใหญ่ [http://arxiv.org/abs/2309.00071]
[บริบทยาวขยาย, การเปลี่ยนแปลงของเชือก] ICLR'24
รถไฟสั้นทดสอบยาว: ความสนใจด้วยอคติเชิงเส้นช่วยให้การคาดการณ์ความยาวอินพุต
[Alibi, การคาดการณ์บริบทยาว, วิธีการฝึกอบรม] ICLR'22
Roformer: หม้อแปลงที่ปรับปรุงด้วยการฝังตำแหน่งโรตารี่
[การฝังตำแหน่งโรตารี่, คลาสสิก]