Nous pensons que les connaissances paramétriques dans les LLM sont toujours un domaine largement inexploré, et nous espérons que ce référentiel vous fournira des idées précieuses !? ? ️
Décodage des neurones de caractéristiques spécialisées dans les LLM avec la couche de projection finale
[Logits Lens, analyse du neurone de requête]
Quelle est la thèse des neurones de connaissances avec les connaissances?
Jingcheng Niu, Andrew Liu, Zining Zhu, Gerald Penn. ICLR'24 (projecteur)
Mécanismes de connaissances dans les modèles de grande langue: une enquête et une perspective
Mengru Wang, Yunzhi Yao, Ziwen Xu, Shuofei Qiao, Shumin Deng, Peng Wang, Xiang Chen, Jia-Chen Gu, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen, Ningyu Zhang. EMNLP'24 Résultats
Démouter la mémoire et la capacité de raisonnement dans les modèles de grande langue
Mingyu Jin, Weidi Luo, Sitao Cheng, Xinyi Wang, Wenyue Hua, Ruixiang Tang, William Yang Wang, Yongfeng Zhang. preprint'24
Effondrement linguistique: effondrement neuronal dans (gros) modèles de langue
Robert Wu, Vardan Papyan. Nips'24
Comprendre l'interaction entre les connaissances paramétriques et contextuelles pour les modèles de grande langue
Sitao Cheng, Liangming Pan, Xunjian Yin, Xinyi Wang, William Yang Wang. Preprint'24
Évaluation de la fusion des connaissances externes et paramétriques de modèles de gros langues
Hao Zhang, Yuyang Zhang, Xiaoguang Li, Wenxuan Shi, Haonan Xu, Huanshuo Liu, Yasheng Wang, Lifeng Shang, Qun Liu, Yong Liu, Ruiming Tang. Preprint'24
Caméléon adaptatif ou paresse têtu: révéler le comportement des grands modèles de langue dans les conflits de connaissances
Jian Xie, Kai Zhang, Jiangjie Chen, Renze Lou, Yu Su. ICLR'24 Spotlight
Connaissance de la désintégration de l'entropie pendant le modèle de langue pré-formation gêne une nouvelle acquisition de connaissances
Jiyeon Kim, Hyunji Lee, Hyowon Cho, Joel Jang, Hyeonbin Hwang, Seungpil Won, Youbin Ahn, Dohaeng Lee, Minjoon Seo. Preprint'24
Lorsque le contexte mène, mais la mémoire paramétrique suit dans des modèles de langues importants
Yufei Tao, Adam Hiatt, Erik Haake, Antonie J. Jetter, Ameeta Agrawal. Emnlp'24
Attribution des connaissances au niveau des neurones dans les modèles de grande langue
Zeping Yu, Sophia Ananiadou. Emnlp'24
Dissection Rappel des associations factuelles dans les modèles de langage auto-régressif [Code]
Mor Geva, Jasmijn Bastings, Katja Filippova, Amir Globerson. Emnlp'23
Les couches d'alimentation transformateur sont des souvenirs de valeur clé
Mor Geva, Roei Schuster, Jonathan Berant, Omer Levy. Emnlp'21
La localisation des connaissances est-elle vraie? Différences surprenantes entre les perspectives d'entité et de relation dans les modèles de langues
Yifan Wei, Xiaoyan Yu, Yixuan Weng, Huanhuan MA, Yuanzhe Zhang, Jun Zhao, Kang Liu. Cikm'24
Localisation et modification des associations factuelles dans GPT
Kevin Meng, David Bau, Alex Andonian, Yonatan Belinkov. Nips'22
Identification des neurones pertinents en requête dans des modèles de grande langue pour les textes de forme longue
Lihu Chen, Adam Dejl, Francesca Toni. Preprint'24
Révaluer les connaissances paramétriques des modèles de langage: un cadre unifié pour les méthodes d'attribution
Haeun Yu, Pepa Atanasova, Isabelle Augenstein. Acl'24
Le modèle grand langage contient-il des neurones spécifiques à la tâche.
Ran Song, Shizhu He, fermant Jiang, Yantuan Xian, Shengxiang Gao, Kang Liu et Zhengtao Yu. Emnlp'24
Voyage au centre des neurones de connaissance: découvertes des neurones de connaissance indépendants du langage et des neurones de connaissance dégénérés
Yuheng Chen, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao. Aaai'24
Neurones de connaissances dans les transformateurs pré-entraînés
Damai Dai, Li Dong, Yaru Hao, Zhifang Sui, Baobao Chang, Furu Wei. Acl'22
Séparer la langue de la pensée: le correctif d'activation révèle
Clément Dumas, Chris Wendler, Veniamin Veselovsky, Giovanni monea, Robert West. ICLR'24 Spotlight
De Yes-Men à Truth-Sellers s'adressant à la sycophance dans des modèles de gros langues avec un réglage PINPOINT
Wei Chen, Zhen Huang, Liang Xie, Binbin Lin, Houqiang Li, Le Lu, Xinmei Tian, Deng Cai, Yonggang Zhang, Wenxiao Wang, Xu Shen, Jieping Ye. Icml'24
Neurones spécifiques à la langue: la clé des capacités multilingues dans les modèles de grande langue.
Tianyi Tang, Wenyang Luo, Haoyang Huang, Dongdong Zhang, Xiaolei Wang, Xin Zhao, Furu Wei, Ji-Rong Wen. Acl'24
Direction à multiproperty de modèles de grands langues avec composition d'activation dynamique
Daniel Scalena, Gabriele Sarti, Malvina Nissim. Atelier ACL'24 BlackBoxnlp
Explorer le bénéfice de la rareté d'activation dans la pré-formation
[Moe, Activation Careté, modèle d'activation, accélération d'inférence] Zhengyan Zhang, Chaojun Xiao, Qiujieli Qin, Yankai Lin, Zhiyuan Zeng, Xu Han, Zhiyuan Liu, Ruobing Xie, Maosong Sun, Jie Zhou. Icml'24
Ajout d'activation: modèles de langue de direction sans optimisation
Alexander Matt Turner, Lisa Thiergart, Gavin Leech, David Udell, Juan J. Vazquez, Ulisse Mini, Monte MacDiarmid. Preprint'23
DEJA VU: Caltuanité contextuelle pour les LLM efficaces au moment de l'inférence
[Sparsity, accélération de l'inférence] Zichang Liu, Jue Wang, Tri Dao, Tianyi Zhou, Binhang Yuan, Zhao Song, Anshumali Shrivastava, Ce Zhang, Yuandong Tian, Christopher Re, Beidi Chen. Icml'23
Une étude complète de l'édition des connaissances pour les modèles de grandes langues
Ningyu Zhang, Yunzhi Yao, Bozhong Tian, Peng Wang, Shumin Deng, Mengru Wang, Zekun Xi, Shengyu Mao, Jintian Zhang, Yuansheng Ni, Siyuan Cheng, Ziwen Xu, Xin Xu, Jia-Gen Gu, Yong Jang, Pengjun Liang, Zhiqiang Zhang, Xiaowei Zhu, Jun Zhou, Huajun Chen. Preprint'24
FAME: Vers l'édition de modèle factuel multi-tâches Li Zeng, Yingyu Shan, Zeming Liu, Jiashu Yao, Yuhang Guo. Emnlp'24
Oublier ou pas? Vers des connaissances pratiques désapprentissage pour les modèles de grande langue
Bozhong Tian, Xiaozhuan Liang, Siyuan Cheng, Qingbin Liu, Mengru Wang, Dianbo Sui, Xi Chen, Huajun Chen, Ningyu Zhang. EMNLP'24 Résultats
Comprendre l'effondrement des LLM dans l'édition du modèle
Wanli Yang, Fei Sun, Jiajun Tan, Xinyu Ma, du Su, Dawei Yin, Huawei Shen. EMNLP'24 Résultats
Est-il possible de modifier de grands modèles de langue robuste?
Xinbei MA, Tianjie Ju, Jiyang Qiu, ZhuoSheng Zhang, Hai Zhao, Lifeng Liu, Yulong Wang. Preprint'24
Modification des connaissances améliorées à la récupération dans les modèles de langage pour la réponse à des questions multi-HOP
Yucheng Shi, Qiaoyu Tan, Xuansheng Wu, Shaochen Zhong, Kaixiong Zhou, Ninghao Liu. Cikm'24
Paraphrasage latent: la perturbation sur les couches améliore l'injection de connaissances dans les modèles de langue
Minki Kang, Sung Ju Hwang, Gibbeum Lee, Jaewoong Cho. Nips'24
Apprendre à modifier: Aligner les LLM avec l'édition de connaissances
Yuxin Jiang, Yufei Wang, Chuhan Wu, Wanjun Zhong, Xingshan Zeng, JiaHui Gao, Liangyou Li, Xin Jiang, Lifeng Shang, Ruiming Tang, Qun Liu, Wei Wang. Acl'24
Inspection et modification des représentations des connaissances dans les modèles de langues
Evan Hernandez, Belinda Z. Li, Jacob Andreas. Colm'24
Oublier avant l'apprentissage: utiliser l'arithmétique paramétrique pour la mise à jour des connaissances dans les modèles de grande langue
Shiwen Ni, Dingwei Chen, Chengming Li, Xiping Hu, Ruifeng Xu, Min Yang. Acl'24
Ethos: Rectification des modèles de langue dans l'espace des paramètres orthogonaux
[Toxic / Bias Undeurenning, SVD, Analyse des connaissances paramétriques, vecteur de tâche]
NAACL'24 Résultats
Édition de grands modèles de langue: problèmes, méthodes et opportunités
Yunzhi Yao, Peng Wang, Bozhong Tian, Siyuan Cheng, Zhoubo Li, Shumin Deng, Huajun Chen, Ningyu Zhang. Emnlp'23
Localisation et modification des associations factuelles dans GPT
Kevin Meng, David Bau, Alex Andonian, Yonatan Belinkov. Nips'22
Édition de modèle basé sur la mémoire à grande échelle
Eric Mitchell, Charles Lin, Antoine Boselut, Christopher D. Manning, Chelsea Finn. Iclr'22
Édition de connaissances factuelles dans les modèles de langue
Nicola de Cao, Wilker Aziz, Ivan Titov. Emnlp'21
Réseaux de neurones modifiables.
Anton Sinitsin, Vsevolod Plokhotnyuk, Dmitriy Pyrkin, Sergei Popov, Artem Babenko. Iclr'20
Ming Zhong, Chenxin AN, Weizhu Chen, Jiawei Han, Pengcheng He. Iclr'24
Initialisation des modèles avec des plus grands
Zhiqiu Xu, Yanjie Chen, Kirill Vishniakov, Yida Yin, Zhiqiang Shen, Trevor Darrell, Lingjie Liu, Zhuang Liu. ICLR'24 Spotlight
Contrôle croisé: Amélioration de plusieurs modèles de grande langue dans une formation ponctuelle
Jiayi Wu, Hao Sun, Hengyi Cai, Lixin Su, Shuaiqiang Wang, Dawei Yin, Xiang Li, Ming Gao. Nips'24
Fusion de connaissances des modèles de gros langues
Fanqi Wan, Xinting Huang, Deng Cai, Xiaojun Quan, Wei BI, Shuming Shi. Iclr'24
Régler les modèles de langue par proxy
Alisa Liu, Xiaochuang Han, Yizhong Wang, Yulia Tsvetkov, Yejin Choi, Noah A. Smith. Colm'24
Vector de chat: une approche simple pour équiper les LLM avec des instructions suivantes et l'alignement du modèle dans de nouvelles langues
[Vecteur de tâche, connaissances paramétriques, transfert de connaissances]
Acl'24
FedMKT: transfert de connaissances mutuelles fédérées pour les modèles de grands et petits langues
[Apprentissage fédéré, transfert de connaissances, alignement des jetons hétérogènes]
Coling'25
Vecteurs de fonction dans les modèles de grande langue
[Vecteur de fonction, médiation causale, interprétation du mécanisme]
Iclr'24
Affinez le réglage du modèle de langue grande via le vecteur d'instructions
[Oublier catastrophique, vecteur de fonction, médiation causale]
Preprint'24
KLF: Localisation des connaissances et fusion pour le modèle de langue apprentissage continu
[L'oubli catastrophique, l'apprentissage continu, l'emplacement basé sur la sensibilité]
Acl'24
Les modèles de langue sont Super Mario: les capacités d'absorption des modèles homologues comme un déjeuner gratuit
[Transfert de connaissances, fusion de modèles, compétence efficace] ICMl'24
Au-delà des vecteurs de tâche: arithmétique de tâche sélective basée sur des métriques d'importance
[Vecteur de tâche, score d'importance basé sur la sensibilité, fusion du modèle] Preprint'24
Amélioration mutuelle des modèles de grandes et petits langues avec transfert de connaissances croisées
Yongheng Deng, Ziqing Qiao, Ju Ren, Yang Liu, Yaoxue Zhang. Preprint'23
Apprendre à développer des modèles pré-entraînés pour une formation efficace sur les transformateurs
Peihao Wang, Rameswar Panda, Lucas Torroba Hennigen, Philip Greengard, Leonid Karlinsky, Rogerio Feris, David D. Cox, Zhangyang Wang, Yoon Kim. Iclr'23
Transfert de connaissances basé sur la récupération: une approche efficace pour une compression de modèle de langue extrêmement large
Jiduan Liu, Jiahao Liu, Qifan Wang, Jingang Wang, Xunliang Cai, Dongyan Zhao, Ran Lucien Wang, Rui Yan. EMNLP'23 Résultats
Modification des modèles avec arithmétique de la tâche
[Tâche vecotr, connaissances paramétriques, transfert de connaissances, apprentissage multi-tâches]
Iclr'23
Localisation des compétences spécifiques aux tâches dans les modèles de langage affinés
[Transfert de connaissances, greffe du modèle, localisation des paramètres de compétence]
Icml'23
Composer des modules économes en paramètres avec des opérations arithmétiques
[PEFT, vecteur de tâche, fusion du modèle]
Nips'23
Fusion de connaissances de données de données en fusionnant des poids de modèles de langue
[Modèle de fusion]
Iclr'23
Distillation de poids: transfert des connaissances dans les paramètres du réseau neuronal
Ye Lin, Yanyang Li, Ziyang Wang, Bei Li, Quan DU, Tong Xiao, Jingbo Zhu. Acl'21
Direction à multiproperty de modèles de grands langues avec composition d'activation dynamique
Daniel Scalena, Gabriele Sarti, Malvina Nissim. Atelier ACL'24 BlackBoxnlp
Les incorporations de mots sont des bouvillons pour les modèles de langue
[Word Embedding Direering, Generation Control] ACL'24
Alexander Matt Turner, Lisa Thiergart, Gavin Leech, David Udell, Juan J. Vazquez, Ulisse Mini, Monte MacDiarmid. Preprint'23
PromptKD: Distillant les connaissances adaptées aux étudiants pour les modèles de langage génératifs via un réglage rapide (Remarque: pas paramétrique)
Gyeongman Kim, Doohyuk Jang, Eunho Yang. EMNLP'24 Résultats
De la formation d'instance à l'apprentissage de l'enseignement: la génération des adaptateurs de tâches à partir d'instructions
Huanxuan Liao, Yao Xu, Shizhu He, Yuanzhe Zhang, Yanchao Hao, Shengping Liu, Kang Liu, Jun Zhao. Nips'24
Quand les bébés enseignent aux bébés: le partage des connaissances des élèves peut-il surpasser la distillation guidée par les enseignants sur de petits ensembles de données?
Srikrishna Iyer. EMNLP'24 CONLL Atelier
Onebit: Vers des modèles de langues très faibles
Yuzhuang Xu, Xu Han, Zonghan Yang, Shuo Wang, Qingfu Zhu, Zhiyuan Liu, Weidong Liu, Wanxiang Che. Nips'24
Le coût de la compression: étudier l'impact de la compression sur les connaissances paramétriques dans les modèles de langue
Satya Sai Srinath Namburi, Makeh Sreedhar, Srinath Srinivasan, Frédéric Sala. EMNLP'23 Résultats
Awakening Génération augmentée: apprendre à éveiller les connaissances internes des modèles de gros langues pour répondre aux questions
[Hypernet, chiffon, compression de contexte]
Huanxuan Liao, Shizhu He, Yao Xu, Yuanzhe Zhang, Kang Liu, Shengping Liu, Jun Zhao. Aaai'25
Injections de mémoire: correction des échecs de raisonnement multi-HOP pendant l'inférence dans les modèles de langue basés sur les transformateurs
Mansi Sakarvadia, Aswathy Ajith, Arham Khan, Daniel Grzenda, Nathaniel Hudson, André Bauer, Kyle Chard, Ian Foster. Présentation orale à BlackBoxNLP Workshop à EMNLP'23
Découpler les connaissances des paramètres de la modélisation du langage plug-and-play
Xin Cheng, Yankai Lin, Xiuying Chen, Dongyan Zhao, Rui Yan. Conclusions ACL'23
Injection de connaissances en paramètre: intégration d'informations contextuelles temporaires dans les paramètres du modèle
Soumis à ICLR'25
Koformer: injection de connaissances dans les couches de transformateur de transformateur
Yunzhi Yao, Shaohan Huang, Li Dong, Furu Wei, Huajun Chen, Ningyu Zhang. Nlpcc'22
KASA: Adaptation de valeur singulière consciente des connaissances des modèles de grandes langues
[Lora, consacrée à la connaissance, SVD]
Fan Wang, Juyong Jiang, Chansung Park, Sunghun Kim, Jing Tang. Preprint'24
Corda: Adaptation de décomposition axée sur le contexte de modèles de gros langage pour le réglage final de paramètres de la tâche
[Lora, consacrée à la connaissance, SVD]
Yibo Yang, Xiaojie Li, Zhongzhu Zhou, Shuaiwen Leon Song, Jianlong Wu, Liqiang Nie, Bernard Ghanem. Nips'24
Dora: adaptation de faible rang décomposée en poids
[Lora décomposée en poids, SVD, Analyse de Ft et Lora] Shih-Yang Liu, Chien-Yi Wang, Hongxu Yin, Pavlo Molchanov, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Min-Hung Chen. Icml'24 oral
Adaptation de faible rang avec amélioration des fonctionnalités pertinentes aux tâches pour les modèles de langage fin
[Aware-Aware Lora, Hidden Representation Amélioration] Aaai'25 Colorai Workshop
En savoir plus, mais déranger moins: un apprentissage continu efficace des paramètres
[Apprentissage continu, paramètre efficace, transfert de connaissances] NIPS'24
Qu'ourera mon modèle? Prévision des exemples oubliés dans le raffinement du modèle de langue
[Catastrophic Founding, Prévision de l'oubli, Analyse] ICMl'24 Spotlight
XRAG: Compression de contexte extrême pour une génération auprès de la récupération avec un jeton
[Compression de contexte, chiffon, fusion multimodale] Nips'24
Londembed: prolonger les modèles d'intégration pour une longue récupération de contexte
[Contexte long, modèle d'intégration, référence] EMNLP'24
LLM Peut
[Long Context Extend, Méthode Plug-and-Play] ICMl'24 Spotlight
Deux pierres ont frappé un oiseau: codage de position à Bilevel pour une meilleure longueur d'extrapolation
[Long contexte étend, Absolute PE + Relative PE, plug-and-play mais méthode basée sur la formation] ICMl'24
YARN: Extension de fenêtre de contexte efficace des modèles de grands langues [http://arxiv.org/abs/2309.00071]
[Contexte long étendue, variation de la corde] iclr'24
Train court, test long: l'attention avec des biais linéaires permet une extrapolation de longueur d'entrée
[Alibi, long contexte extrapolé, méthode basée sur la formation] iclr'22
ROFORMER: Transformateur amélioré avec incorporation de position rotative.
[Position rotative Embeding, Classic]