Wir glauben, dass das parametrische Wissen in LLMs immer noch ein weitgehend unerforschter Bereich ist, und wir hoffen, dass dieses Repository Ihnen einige wertvolle Erkenntnisse liefert!
Decodieren spezieller Feature -Neuronen in LLMs mit der endgültigen Projektionsschicht
[Logits Lens, Analyse des Abfrage -Neurons]
Was hat die These der Wissensneuron mit Wissen zu tun?
Jingcheng Niu, Andrew Liu, Zining Zhu, Gerald Penn. ICLR'24 (Spotlight)
Wissensmechanismen in Großsprachenmodellen: eine Umfrage und Perspektive
Mengru Wang, Yunzhi Yao, Ziwen Xu, Shuofei Qiao, Shumin Deng, Peng Wang, Xiang Chen, Jia-Chen Gu, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen, Ningyu Zhang. EMNLP'24 Erkenntnisse
Entwirrung von Gedächtnis- und Argumentationsfähigkeit in Großsprachenmodellen
Mingyu Jin, Weidi Luo, Sitao Cheng, Xinyi Wang, Wenyue Hua, Ruixiang Tang, William Yang Wang, Yongfeng Zhang. Preprint'24
Sprachkollaps: Neuronaler Zusammenbruch in (großen) Sprachmodellen
Robert Wu, Vardan Papyan. Nips'24
Verständnis des Zusammenspiels zwischen parametrischem und kontextuellem Wissen für Großsprachenmodelle
Sitao Cheng, Liangming Pan, Xunjian Yin, Xinyi Wang, William Yang Wang. Preprint'24
Bewertung der externen und parametrischen Wissensfusion großer Sprachmodelle
Hao Zhang, Yuyang Zhang, Xiaoguang Li, Wenxuan Shi, Haonan Xu, Huanshuo Liu, Yasheng Wang, Lifeng Shang, Qun Liu, Yong Liu, Ruiming Tang. Preprint'24
Adaptives Chamäleon oder hartnäckiger Faultier: Das Verhalten großer Sprachmodelle in Wissenskonflikten enthüllen
Jian Xie, Kai Zhang, Jiangjie Chen, Renze Lou, Yu Su. ICLR'24 Spotlight
Verfall des Wissens Entropie während des Sprachmodells behindert den neuen Wissenserwerb
Jiyeon Kim, Hyunji Lee, Hyowon Cho, Joel Jang, Hyeonbin Hwang, Seungpil gewonnen, Youbin Ahn, Dohaeng Lee, Minjoon Seo. Preprint'24
Wenn der Kontext führt, aber parametrischer Gedächtnis in Großsprachenmodellen folgt
Yufei Tao, Adam Hiatt, Erik Haake, Antonie J. Jettter, Ameeta Agrawal. Emnlp'24
Wissenszuordnung auf Neuronebene in Großsprachenmodellen
Zeping Yu, Sophia Ananiadou. Emnlp'24
Ansezierung des Rückrufs von sachlichen Assoziationen in automatisch-tergressiven Sprachmodellen [Code]
Mor Geva, Jasmijn Bastings, Katja Filippova, Amir Globerson. Emnlp'23
Transformator Feed-Forward-Schichten sind Schlüsselwertgefälle
Mor Geva, Roei Schuster, Jonathan Berant, Omer Levy. Emnlp'21
Gilt die Lokalisierung der Wissenswissenschaft? Überraschende Unterschiede zwischen Unternehmen und Beziehung Perspektiven in Sprachmodellen
Yifan Wei, Xiaoyan Yu, Yixuan Weng, Huanhuan MA, Yuanzhe Zhang, Jun Zhao, Kang Liu. Cikm'24
Fakten und Bearbeitung von sachlichen Assoziationen in GPT
Kevin Meng, David Bauer, Alex Andonian, Yonatan Belinkov. Nips'22
Identifizieren von abfragrelevanten Neuronen in Großsprachmodellen für Langformtexte
Lihu Chen, Adam Dejl, Francesca Toni. Preprint'24
Enthüllung des parametrischen Wissens über Sprachmodelle: Ein einheitliches Framework für Attributionsmethoden
Haeun Yu, Pepa Atanasova, Isabelle Audenstein. ACL'24
Enthält großes Sprachmodell aufgabenspezifische Neuronen?
Ran Song, Shizhu He, schließt Jiang, Yantuan Xian, Shengxiang Gao, Kang Liu und Zhengtao Yu. Emnlp'24
Reise zum Zentrum der Wissensneuronen: Entdeckungen sprachunabhängiger Wissenneuronen und degenerierter Wissenneuronen
Yuheng Chen, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao. Aaai'24
Wissensneuronen in vorbereiteten Transformatoren
Damai Dai, Li Dong, Yaru Hao, Zhifang Sui, Baobao Chang, Furu Wei. ACL'22
Die Zunge vom Denken trennen: Aktivierungspatching zeigt Sprach-Agnostische Konzeptrepräsentationen in Transformatoren
Clément Dumas, Chris Wendler, Veniamin Veselovsky, Giovanni Monea, Robert West. ICLR'24 Spotlight
Von Ja-Men bis hin zu Wahrheitstellern, die die Sykophanz in großen Sprachmodellen mit einer punktgenauigen Abstimmung ansprechen
Wei Chen, Zhen Huang, Liang Xie, Binbin Lin, Houqiang Li, Le Lu, Xinmei Tian, Deng Cai, Yonggang Zhang, Wenxiao Wang, Xu Shen, Jieping Ye. ICML'24
Sprachspezifische Neuronen: Der Schlüssel zu mehrsprachigen Funktionen in großen Sprachmodellen.
Tianyi Tang, Wenyang Luo, Haoyang Huang, Dongdong Zhang, Xiaolei Wang, Xin Zhao, Furu Wei, Ji-Rong Wen. ACL'24
Multi-Property-Lenkung großer Sprachmodelle mit dynamischer Aktivierungszusammensetzung
Daniel Scalena, Gabriele Sarti, Malvina Nissim. ACL'24 Blackboxnlp Workshop
Untersuchung des Nutzens der Aktivierungssparsamkeit bei der Vorausbildung
[MOE, Aktivierungssparsität, Aktivierungsmuster, Inferenzgeschwindigkeit] Zhengyan Zhang, Chaojun Xiao, Qiujieli Qin, Yankai Lin, Zhiyuan Zeng, Xu Han, Zhiyuan Liu, Ruobing Xie, Maosong Sun, Jie Zhou. ICML'24
Aktivierungseradung: Lenksprachmodelle ohne Optimierung
Alexander Matt Turner, Lisa Thiergart, Gavin Leech, David Udell, Juan J. Vazquez, Ulisse Mini, Monte MacDiarmid. Preprint'23
Deja Vu: Kontextsparsity für effiziente LLMs zur Inferenzzeit
[Sparsity, Inferenzgeschwindigkeit] Zichang Liu, Jue Wang, Tri Dao, Tianyi Zhou, Binhang Yuan, Zhao -Lied, Anshumali Shrivastava, CE Zhang, Yuandong Tian, Christopher Re, Beidi -Chen. ICML'23
Eine umfassende Untersuchung der Wissensbearbeitung für große Sprachmodelle
Ningyu Zhang, Yunzhi Yao, Bozhong Tian, Peng Wang, Shumin Deng, Mengru Wang, Zekun Xi, Shengyu Mao, Jintian Zhang, Yuansheng Ni, Siyuan Cheng, Ziwen Xu, Xin Xu, Jia-Chen Gu, Yong Jiang, Pengjun Xie, Fei Huang, Lei Liang, Zhiqiang Zhang, Xiaowei Zhu, Jun Zhou, Huajun Chen. Preprint'24
Ruhm: Auf dem Weg zu Faktenmulti-Task-Modell Bearbeitung von Li Zeng, Yingyu Shan, Zeming Liu, Jishu Yao, Yuhang Guo. Emnlp'24
Zu vergessen oder nicht? In Richtung praktischer Wissen, das für große Sprachmodelle verurteilt wird
Bozhong Tian, Xiaozhuan Liang, Siyuan Cheng, Qingbin Liu, Mengru Wang, Dianbo Sui, Xi Chen, Huajun Chen, Ningyu Zhang. EMNLP'24 Erkenntnisse
Verständnis des Zusammenbruchs von LLMs bei der Modellbearbeitung
Wanli Yang, Fei Sun, Jiajun Tan, Xinyu MA, du Su, Dawei Yin, Huawei Shen. EMNLP'24 Erkenntnisse
Ist es möglich, große Sprachmodelle robust zu bearbeiten?
Xinbei MA, Tianjie Ju, Jiyang Qiu, Zhuosheng Zhang, Hai Zhao, Lifeng Liu, Yulong Wang. Preprint'24
Abrufenverbesserte Wissensbearbeitung in Sprachmodellen für die Beantwortung von Multi-Hop-Frage
Yucheng Shi, Qiaoyu Tan, Xuansheng Wu, Shaochen Zhong, Kaixiong Zhou, Ninghao Liu. Cikm'24
Latente Umschreibung: Störung auf Schichten verbessert die Wissensinjektion in Sprachmodellen
Minki Kang, Sung Ju Hwang, Gibbeum Lee, Jawoong Cho. Nips'24
Lernen zum Bearbeiten: LLMs ausrichten mit Wissensbearbeitung
Yuxin Jiang, Yufei Wang, Chuhan Wu, Wanjun Zhong, Xinghan Zeng, Jiahui Gao, Liangyou Li, Xin Jiang, Lifeng Shang, Ruiming Tang, Qun Liu, Wei Wang. ACL'24
Inspizieren und Bearbeiten von Wissensdarstellungen in Sprachmodellen
Evan Hernandez, Belinda Z. Li, Jacob Andreas. Colm'24
Vergessen vor dem Lernen: Nutzung der parametrischen Arithmetik für die Aktualisierung von Wissen in Großsprachenmodellen
Shiwen Ni, Dingwei Chen, Chengming Li, Xiping Hu, Ruifeng Xu, Min Yang. ACL'24
Ethos: Korrektur von Sprachmodellen im orthogonalen Parameterraum korrigieren
[Toxic/Bias Lerning, SVD, Analyse des parametrischen Wissens, Aufgabenvektor]
Naacl'24 Erkenntnisse
Bearbeitung von großsprachigen Modellen: Probleme, Methoden und Chancen
Yunzhi Yao, Peng Wang, Bozhong Tian, Siyuan Cheng, Zhoubo Li, Shumin Deng, Huajun Chen, Ningyu Zhang. Emnlp'23
Fakten und Bearbeitung von sachlichen Assoziationen in GPT
Kevin Meng, David Bauer, Alex Andonian, Yonatan Belinkov. Nips'22
Speicherbasierte Modellbearbeitung im Maßstab
Eric Mitchell, Charles Lin, Antoine Bosselut, Christopher D. Manning, Chelsea Finn. ICLR'22
Sachkenntnisse in Sprachmodellen bearbeiten
Nicola de Cao, Wilker Aziz, Ivan Titov. Emnlp'21
Bearbeitbare neuronale Netzwerke.
Anton Sinitsin, Vsevolod Plokhotnyuk, Dmitriy Pyrkin, Sergei Popov, Artem Billenko. ICLR'20
Ming Zhong, Chenxin an, Weizhu Chen, Jiawei Han, Pengcheng HE. ICLR'24
Initialisieren von Modellen mit größeren
Zhiqiu Xu, Yanjie Chen, Kirill Vishniakov, Yida Yin, Zhiqiang Shen, Trevor Darrell, Lingjie Liu, Zhuang Liu. ICLR'24 Spotlight
Cross-Model-Kontrolle: Verbesserung mehrerer großer Sprachmodelle im einmaligen Training
Jiyi Wu, Hao Sun, Hengyi Cai, Lixin Su, Shuaiqiang Wang, Dawei Yin, Xiang Li, Ming Gao. Nips'24
Wissensfusion großer Sprachmodelle
Fanqi Wan, Xinting Huang, Deng Cai, Xiaojun Quan, Wei Bi, Shuming Shi. ICLR'24
Tuningsprachmodelle nach Proxy
Alisa Liu, Xiaochuang Han, Yizhong Wang, Yulia Tsvetkov, Yejin Choi, Noah A. Smith. Colm'24
Chat -Vektor: Ein einfacher Ansatz zur Ausrüstung von LLMs mit Anweisungen und Modellausrichtung in neuen Sprachen
[Taskvektor, parametrisches Wissen, Wissenstransfer]
ACL'24
FEDMKT: Federated gegenseitiges Wissenstransfer für große und kleine Sprachmodelle
[Föderiertes Lernen, Wissenstransfer, heterogene Token -Ausrichtung]
Coling'25
Funktionsvektoren in Großsprachmodellen
[Funktionsvektor, Kausalmediation, Mechanismus -Interpretation]
ICLR'24
Verfeinern Sie die Feinabstimmung des Großsprachenmodells über den Unterrichtsvektor
[Katastrophales Vergessen, Funktionsvektor, kausale Vermittlung]
Preprint'24
KLF: Wissenslokalisierung und Fusion für Sprachmodell kontinuierliches Lernen
[Katastrophales Vergessen, kontinuierliches Lernen, sensetitätsbasierter Standort]
ACL'24
Sprachmodelle sind Super Mario: Absorbing Fähigkeiten aus homologen Modellen als kostenloses Mittagessen
[Wissenstransfer, Modelluerverschmelzung, effiziente Fähigkeiten] ICML'24
Jenseits der Aufgabenvektoren: Selektive Aufgabenarithmetik basierend auf Wichtigkeitsmetriken
[Aufgabenvektor, sensetivitätsbasierte Wichtigkeitsbewertung, Modellverzerrung] Preprint'24
Gegenseitige Verbesserung großer und kleiner Sprachmodelle mit Cross-Silo-Wissenstransfer
Yongheng Deng, Ziqing Qiao, Ju Ren, Yang Liu, Yaoxue Zhang. Preprint'23
Lernen, vorgezogene Modelle für ein effizientes Transformatortraining zu erweitern
Peihao Wang, Rameswar Panda, Lucas Torroba Hennigen, Philip Greengard, Leonid Karlinsky, Rogerio Feris, David D. Cox, Zhangyang Wang, Yoon Kim. ICLR'23
Abrufbasierte Wissenstransfer: Ein wirksamer Ansatz für die Komprimierung extrem großer Sprachmodells
Jiduan Liu, Jiahao Liu, Qifan Wang, Jingang Wang, Xunliang Cai, Dongyan Zhao, Ran Lucien Wang, Rui Yan. EMNLP'23 Erkenntnisse
Bearbeitungsmodelle mit Aufgabenarithmetik
[Task Vecotr, parametrisches Wissen, Wissenstransfer, Multi-Task-Lernen]
ICLR'23
Aufgabenspezifische Fähigkeiten Lokalisierung in fein abgestimmten Sprachmodellen
[Wissenstransfer, Modelltransplantat, Fähigkeitsparameterlokalisierung]
ICML'23
Komponieren von parametereffizienten Modulen mit arithmetischen Operationen
[PEFT, Task Vector, Model Merge]
Nips'23
Datenfusion dataless Wissen durch Zusammenführen von Gewichten von Sprachmodellen
[Model Merge]
ICLR'23
Gewichtsdestillation: Übertragung des Wissens in neuronalen Netzwerkparametern
Ye Lin, Yanyang Li, Ziyang Wang, Bei Li, Quan du, Tong Xiao, Jingbo Zhu. ACL'21
Multi-Property-Lenkung großer Sprachmodelle mit dynamischer Aktivierungszusammensetzung
Daniel Scalena, Gabriele Sarti, Malvina Nissim. ACL'24 Blackboxnlp Workshop
Word -Einbettungen sind Steuerung für Sprachmodelle
[Wortbettbettung, Generationskontrolle] ACL'24
Alexander Matt Turner, Lisa Thiergart, Gavin Leech, David Udell, Juan J. Vazquez, Ulisse Mini, Monte MacDiarmid. Preprint'23
PromptKD: Destillieren von Studentenfreundlichkeit für generative Sprachmodelle über ein schnelles Tuning (Hinweis: Nicht parametrisch)
Gyeongman Kim, Doohyuk Jang, Eunho Yang. EMNLP'24 Erkenntnisse
Vom Instanztraining bis zum Unterrichtslernen: Aufgabenadaptergenerierung aus Anweisungen
Huanxuan Liao, Yao Xu, Shizhu He, Yuanzhe Zhang, Yanchao Hao, Shengping Liu, Kang Liu, Jun Zhao. Nips'24
Wenn Babys Babys unterrichten: Kann die Wissensaustausch von Schülern die von Lehrer geführte Destillation auf kleinen Datensätzen übertreffen?
Srikrishna Iyer. EMNLP'24 Conll Workshop
Onebit: Auf dem Weg zu extrem niedrigen großartigen großsprachigen Modellen
Yuzhuang Xu, Xu Han, Zonghan Yang, Shuo Wang, Qingfu Zhu, Zhiyuan Liu, Weidong Liu, Wanxiang Che. Nips'24
Die Kosten der Komprimierung: Untersuchung der Auswirkungen der Komprimierung auf das parametrische Wissen in Sprachmodellen
Satya Sai Srinath Namburi, Makeeh Sreedhar, Srinath Srinivasan, Frederic Sala. EMNLP'23 Erkenntnisse
Erweckung erweiterte Generation: Lernen, interne Kenntnisse großer Sprachmodelle für die Beantwortung von Fragen zu erwecken
[Hyperet, Lappen, Kontextkomprimierung]
Huanxuan Liao, Shizhu He, Yao Xu, Yuanzhe Zhang, Kang Liu, Shenging Liu, Jun Zhao. Aaai'25
Speicherinjektionen: Korrektur von Multi-Hop-Argumentationsfehlern während der Inferenz in transformatorbasierten Sprachmodellen
Manssi Sakarvadia, Aswathy Ajith, Arham Khan, Daniel Grzenda, Nathaniel Hudson, André Bauer, Kyle Chard, Ian Foster. Orale Präsentation bei Blackboxnlp Workshop bei EMNLP'23
Entkoppeln Sie das Wissen aus Parametern für Plug-and-Play-Sprachmodellierung
Xin Cheng, Yankai Lin, Xiuying Chen, Dongyan Zhao, Rui Yan. ACL'23 Erkenntnisse
In-Parameter-Wissensinjektion: Integration vorübergehender Kontextinformationen in Modellparameter
Eingereicht an ICLR'25
Kformer: Wissensinjektion in Transformator-Vorwärtsschichten
Yunzhi Yao, Shaohan Huang, Li Dong, Furu Wei, Huajun Chen, Ningyu Zhang. NLPCC'22
KASA: Wissensbewusstes singulärer Wertanpassung großer Sprachmodelle
[Wissensbewusstes Lora, SVD]
Fan Wang, Juyong Jiang, Chansung Park, Sunghun Kim, Jing Tang. Preprint'24
Corda: Kontextorientierte Zersetzung Anpassung von Großsprachenmodellen für aufgabenbewusste parametereffiziente Feinabstimmung
[Wissensbewusstes Lora, SVD]
Yibo Yang, Xiaojie Li, Zhongzhu Zhou, Shuaiwen Leon Song, Jianlong Wu, Liqiang Nie, Bernard Ghanem. Nips'24
DORA: Gewichtsbekämpfte Anpassung mit niedriger Rang
[Gewichtsbekämpfung Lora, SVD, Analyse von FT und Lora] Shih-yang Liu, Chien-yi Wang, Hongxu Yin, Pavlo Molchanov, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Min-Hung-Chen. ICML'24 Oral
Anpassung mit niedriger Rang mit aufgabenrelevanter Funktionsverbesserung für Feinabstimmungsmodelle
[Aufgabenbewusstes Lora, Verbesserung der Repräsentation] AAAI'25 Colorai Workshop
Erfahren Sie mehr, aber stören Sie weniger: Parameter effizientes kontinuierliches Lernen
[Kontinuierliches Lernen, Parameter effizient, Wissenstransfer] Nips'24
Was wird mein Modell vergessen? Vorhersage vergessener Beispiele bei der Verfeinerung des Sprachmodells
[Katastrophales Vergessen, Prognose vergessen, Analyse] ICML'24 Spotlight
XRAG: Extreme Kontextkomprimierung für die retrieval-generierte Generation mit einem Token
[Kontextkomprimierung, Lappen, multimodale Fusion] Nips'24
Längsbed: Erweiterung der Einbettungsmodelle für ein langes Kontextabruf
[Langer Kontext, Einbettungsmodell, Benchmark] EMNLP'24
LLM vielleicht Longlm: Selbstverwalter LLM-Kontextfenster ohne Einstellung
[Langer Kontext erweitert, Plug-and-Play-Methode] ICML'24 Spotlight
Zwei Steine treffen einen Vogel: Bilevel -Positionscodierung für eine bessere Länge Extrapolation
[Langer Kontext erweitert, absolute PE + Relative PE, Plug-and-Play, aber Trainingsbasierte Methode] ICML'24
Garn: Effiziente Kontextfenstererweiterung großer Sprachmodelle [http://arxiv.org/abs/2309.00071]
[Langer Kontext erweitert, Variation des Seils] ICLR'24
Zug kurz, testen Sie lange: Aufmerksamkeit mit linearen Verzerrungen ermöglicht die Extrapolation der Eingangslänge
[Alibi, lange Kontext extrapolieren, basierende Methode] ICLR'22
ROFORMER: Verbesserter Transformator mit der Einbettung von Rotary Position.
[Einbettung der Rotary Position, Classic]