Acreditamos que o conhecimento paramétrico no LLMS ainda é uma área amplamente inexplorada, e esperamos que esse repositório forneça algumas idéias valiosas!? ?
Decodificação de neurônios de recursos especializados no LLMS com a camada final de projeção
[Lens de logits, análise do neurônio da consulta]
O que a tese de neurônios do conhecimento tem a ver com conhecimento?
Jingcheng Niu, Andrew Liu, Zining Zhu, Gerald Penn. Iclr'24 (holofote)
Mecanismos de conhecimento em grandes modelos de idiomas: uma pesquisa e perspectiva
Mengru Wang, Yunzhi Yao, Ziwen Xu, Shuofei Qiao, Shumin Deng, Peng Wang, Xiang Chen, Jia-Chen Gu, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen, Ningyu Zhang. Descobertas EMNLP'24
Deixar de memória e capacidade de raciocínio em grandes modelos de linguagem
Mingyu Jin, Weidi Luo, Sitao Cheng, Xinyi Wang, Wenyue Hua, Ruixiang Tang, William Yang Wang, Yongfeng Zhang. Preprint'24
Colapso linguístico: colapso neural em modelos de idiomas (grandes)
Robert Wu, Vardan Papyan. Nips'24
Compreendendo a interação entre conhecimento paramétrico e contextual para modelos de linguagem grandes
Sitao Cheng, Liangming Pan, Xunjian Yin, Xinyi Wang, William Yang Wang. Preprint'24
Avaliando a fusão de conhecimento externo e paramétrico de grandes modelos de linguagem
Hao Zhang, Yuyang Zhang, Xiaoguang Li, Wenxuan Shi, Haonan Xu, Huanshuo Liu, Yasheng Wang, Lifeng Shang, Qun Liu, Yong Liu, Ruiming Tang. Preprint'24
Chameleon adaptativo ou preguiça teimosa: revelando o comportamento de grandes modelos de linguagem em conflitos de conhecimento
Jian Xie, Kai Zhang, Jiangjie Chen, Renze Lou, Yu Su. ICLR'24 Spotlight
Conhecimento de decaimento da entropia durante o modelo de idioma que pré -treina dificulta a aquisição de novos conhecimentos
Jiyeon Kim, Hyunji Lee, Hyowon Cho, Joel Jang, Hyeonbin Hwang, Seungpil Won, Youbin Ahn, Dohaeng Lee, Minjoon SEO. Preprint'24
Quando o contexto leva, mas a memória paramétrica segue em grandes modelos de linguagem
Yufei Tao, Adam Hiatt, Erik Haake, Antonie J. Jetter, Ameeta Agrawal. Emnlp'24
Atribuição de conhecimento em nível de neurônio em grandes modelos de linguagem
Zeping Yu, Sophia Ananiadou. Emnlp'24
Dissecando a recall de associações factuais em modelos de idiomas auto-regressivos [Código]
Mor Geva, Jasmijn Bastings, Katja Filippova, Amir Globerson. Emnlp'23
Camadas de feed-forward de transformador são memórias de valor-chave
Mor Geva, Roei Schuster, Jonathan Berant, Omer Levy. EMNLP'21
A localização do conhecimento é verdadeira? Diferenças surpreendentes entre as perspectivas da entidade e da relação nos modelos de linguagem
Yifan Wei, Xiaoyan Yu, Yixuan Weng, Huanhuan MA, Yuanzhe Zhang, Jun Zhao, Kang Liu. Cikm'24
Localizar e editar associações factuais no GPT
Kevin Meng, David Bau, Alex Andonian, Yonatan Belinkov. Nips'22
Identificando neurônios relevantes à consulta em modelos de linguagem grandes para textos de forma longa
Lihu Chen, Adam Dejl, Francesca Toni. Preprint'24
Revelando o conhecimento paramétrico dos modelos de linguagem: uma estrutura unificada para métodos de atribuição
Haeun Yu, Pepa atanasova, Isabelle Augntein. ACL'24
O modelo de linguagem grande contém neurônios específicos de tarefas.
Ran Song, Shizhu He, fechando Jiang, Yantuan Xian, Shengxiang Gao, Kang Liu e Zhengtao Yu. Emnlp'24
Viagem para o centro dos neurônios do conhecimento: descobertas de neurônios de conhecimento independentes da linguagem e neurônios de degeneração do conhecimento
Yuheng Chen, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao. Aaai'24
Neurônios de conhecimento em transformadores pré -criados
Damai Dai, Li Dong, Yaru Hao, Zhifang Sui, Baobao Chang, Furu Wei. ACL'22
Separando a língua do pensamento: o patch de ativação revela representações conceituais-agnósticas de linguagem em transformadores
Clément Dumas, Chris Wendler, Veniamin Veselovsky, Giovanni Monea, Robert West. ICLR'24 Spotlight
De homens de sim a verdadeiros, abordando a bajulação em grandes modelos de idiomas com ajuste de Pinpoint
Wei Chen, Zhen Huang, Liang Xie, Binbin Lin, Houqiang Li, Le Lu, Xinmei Tian, Deng Cai, Yonggang Zhang, Wenxiao Wang, Xu Shen, Jieping Ye. ICML'24
Neurônios específicos da linguagem: a chave para recursos multilíngues em grandes modelos de idiomas.
Tianyi Tang, Wenyang Luo, Haoyang Huang, Dongdong Zhang, Xiaolei Wang, Xin Zhao, Furu Wei, Ji-Rong Wen. ACL'24
Direção multiproperty de grandes modelos de linguagem com composição de ativação dinâmica
Daniel Scalena, Gabriele Sarti, Malvina Nissim. Workshop ACL'24 BlackBoxnlp
Explorando o benefício da escassez de ativação no pré-treinamento
[MOE, escassos de ativação, padrão de ativação, aceleração de inferência] Zhengyan Zhang, Chaojun Xiao, Qiujieli Qin, Yankai Lin, Zhiyuan Zeng, Xu Han, Zhiyuan Liu, Ruobing Xie, Maosong Sun, Jie Zhou. ICML'24
Adição de ativação: modelos de linguagem de direção sem otimização
Alexander Matt Turner, Lisa Thiergart, Gavin Leech, David Udell, Juan J. Vazquez, Ulisse Mini, Monte MacDiarmid. Pré -impressão 23
DEJA VU: Sparsidade contextual para LLMs eficientes em tempo de inferência
[Sparsidade, aceleração de inferência] Zichang Liu, Jue Wang, Tri Dao, Tianyi Zhou, Binhang Yuan, Zhao Song, Anshumali Shrivastava, CE Zhang, Yuandong Tian, Christopher Re, Beidi Chen. ICML'23
Um estudo abrangente da edição de conhecimento para grandes modelos de idiomas
Ningyu Zhang, Yunzhi Yao, Bozhong Tian, Peng Wang, Shumin Deng, Mengru Wang, Zekun Xi, Shengyu Mao, Jintian Zhang, Yuansheng Ni, Siyuan Cheng, Zinwen Xu, Xu, Xu, Jia-Cheni, yong, yong, yong, yong, yong jun, xun, xin, jia-chenni, yong, yong, yong jun, xunsheng ni, siyuan cheng, zijun xu, xin, xin, jia-cheni. Liang, Zhiqiang Zhang, Xiaowei Zhu, Jun Zhou, Huajun Chen. Preprint'24
Fama: em direção a um modelo de várias tarefas factuais edição de Li Zeng, Yingyu Shan, Zeming Liu, Jiashu Yao, Yuhang Guo. Emnlp'24
Para esquecer ou não? Rumo ao conhecimento prático desaprendendo para grandes modelos de linguagem
Bozhong Tian, Xiaozhuan Liang, Siyuan Cheng, Qingbin Liu, Mengru Wang, Dianbo Sui, Xi Chen, Huajun Chen, Ningyu Zhang. Descobertas EMNLP'24
Compreendendo o colapso do LLMS na edição de modelos
Wanli Yang, Fei Sun, Jiajun Tan, Xinyu MA, du Su, Dawei Yin, Huawei Shen. Descobertas EMNLP'24
É possível editar grandes modelos de linguagem com robustez?
Xinbei MA, Tianjie Ju, Jiyang Qiu, Zhuosheng Zhang, Hai Zhao, Lifeng Liu, Yulong Wang. Preprint'24
Edição de conhecimento aprimorada pela recuperação em modelos de idiomas para respostas de perguntas multi-hop
Yucheng Shi, Qiaoyu Tan, Xuansheng Wu, Shaochen Zhong, Kixiong Zhou, Ninghao Liu. Cikm'24
Parafraseando latente: a perturbação nas camadas melhora a injeção de conhecimento em modelos de idiomas
Minki Kang, Sung Ju Hwang, Gibbeum Lee, Jaewoong Cho. Nips'24
Aprendendo a editar: Alinhando LLMs com edição de conhecimento
Yuxin Jiang, Yufei Wang, Chuhan Wu, Wanjun Zhong, Xingshan Zeng, Jiahui Gao, Liangyou Li, Xin Jiang, Lifeng Shang, Ruiming Tang, Qun Liu, Wei Wang. ACL'24
Inspecionar e editar representações de conhecimento em modelos de idiomas
Evan Hernandez, Belinda Z. Li, Jacob Andreas. Colm'24
Esquecendo antes de aprender: utilizando aritmética paramétrica para atualização de conhecimento em grandes modelos de linguagem
Shiwen Ni, Dingwei Chen, Chengming Li, Xiping Hu, Ruifeng Xu, Min Yang. ACL'24
Ethos: retificar modelos de linguagem no espaço de parâmetros ortogonais
[Toxic/viés desaprendendo, SVD, Análise do conhecimento paramétrico, vetor de tarefa]
Achados naacl'24
Editando grandes modelos de idiomas: problemas, métodos e oportunidades
Yunzhi Yao, Peng Wang, Bozhong Tian, Siyuan Cheng, Zhoubo Li, Shumin Deng, Huajun Chen, Ningyu Zhang. Emnlp'23
Localizar e editar associações factuais no GPT
Kevin Meng, David Bau, Alex Andonian, Yonatan Belinkov. Nips'22
Edição de modelo baseada em memória em escala
Eric Mitchell, Charles Lin, Antoine Bosselut, Christopher D. Manning, Chelsea Finn. Iclr'22
Editando conhecimento factual em modelos de idiomas
Nicola de Cao, Wilker Aziz, Ivan Titov. EMNLP'21
Redes neurais editáveis.
Anton Sinitsin, Vsevolod Plokhotnyuk, Dmitriy Pyrkin, Sergei Popov, Artem Babenko. ICLR'20
Ming Zhong, Chenxin AN, Weizhu Chen, Jiawei Han, Pengcheng He. Iclr'24
Inicializando modelos com maiores
Zhiqiu Xu, Yanjie Chen, Kirill Vishniakov, Yida Yin, Zhiqiang Shen, Trevor Darrell, Lingjie Liu, Zhuang Liu. ICLR'24 Spotlight
Controle entre modelos: melhorando vários modelos de linguagem grande em treinamento único
Jiayi Wu, Hao Sun, Hengyi Cai, Lixin Su, Shuaiqiang Wang, Dawei Yin, Xiang Li, Ming Gao. Nips'24
Fusão de conhecimento de grandes modelos de linguagem
Fanqi Wan, Xinting Huang, Deng Cai, Xiaojun Quan, Wei BI, Shuming Shi. Iclr'24
Modelos de linguagem de ajuste por proxy
Alisa Liu, Xiaochuang Han, Yizhong Wang, Yulia Tsvetkov, Yejin Choi, Noah A. Smith. Colm'24
Vetor de bate -papo: uma abordagem simples para equipar os LLMs com a instrução a seguir e o alinhamento do modelo em novos idiomas
[Vetor de tarefas, conhecimento paramétrico, transferência de conhecimento]
ACL'24
FedMkt: transferência de conhecimento mútuo federado para modelos de idiomas grandes e pequenos
[Aprendizagem federada, transferência de conhecimento, alinhamento heterogêneo do token]
Coling'25
Vetores de função em grandes modelos de linguagem
[Vetor da função, mediação causal, interpretação do mecanismo]
Iclr'24
Refinar o modelo de modelo de grande idioma por meio do vetor de instrução Vector
[Esquecimento catastrófico, vetor de função, mediação causal]
Preprint'24
KLF: Localização do conhecimento e fusão para o modelo de idioma Aprendizagem contínua
[Esquecimento catastrófico, aprendizado contínuo, localização baseada na sensação]
ACL'24
Os modelos de idiomas são Super Mario: Absorveing Hapility of Homologous Models como um almoço grátis
[Transferência de conhecimento, fusão do modelo, habilidade eficiente] ICML'24
Além dos vetores de tarefas: aritmética de tarefas seletivas com base em métricas de importância
[Vetor de tarefas, pontuação de importância baseada na sensação, fusão de modelos] Preprint'24
Aprimoramento mútuo de modelos de linguagem grande e pequena com transferência de conhecimento de silolos cruzados
Yongheng Deng, Ziqing Qiao, Ju Ren, Yang Liu, Yaoxue Zhang. Pré -impressão 23
Aprendendo a cultivar modelos pré -ridados para treinamento eficiente de transformadores
Peihao Wang, Rameswar Panda, Lucas Torroba Hennigen, Philip Greengard, Leonid Karlinsky, Rogerio Feris, David D. Cox, Zhangyang Wang, Yoon Kim. Iclr'23
Transferência de conhecimento baseada em recuperação: uma abordagem eficaz para compressão de modelos de linguagem extrema grande
Jiduan Liu, Jiahao Liu, Qifan Wang, Jingang Wang, Xunliang Cai, Dongyan Zhao, Ran Lucien Wang, Rui Yan. Descobertas emnlp'23
Editando modelos com aritmética de tarefas
[Task VECOTR, conhecimento paramétrico, transferência de conhecimento, aprendizado de várias tarefas]
Iclr'23
Localização de habilidades específicas para tarefas em modelos de linguagem ajustados
[Transferência de conhecimento, enxerto de modelo, localização de parâmetros de habilidade]
ICML'23
Compondo módulos com eficiência de parâmetro com operações aritméticas
[Peft, vetor de tarefa, mesclagem de modelo]
NIPS'23
Fusão de conhecimento sobre nataforma, mesclando pesos dos modelos de linguagem
[Merge do modelo]
Iclr'23
Destilação de peso: transferindo o conhecimento nos parâmetros da rede neural
Ye Lin, Yanyang Li, Ziyang Wang, Bei Li, Quan DU, Tong Xiao, Jingbo Zhu. ACL'21
Direção multiproperty de grandes modelos de linguagem com composição de ativação dinâmica
Daniel Scalena, Gabriele Sarti, Malvina Nissim. Workshop ACL'24 BlackBoxnlp
As incorporações de palavras são novidades para modelos de idiomas
[Word incorporando direção, controle de geração] ACL'24
Alexander Matt Turner, Lisa Thiergart, Gavin Leech, David Udell, Juan J. Vazquez, Ulisse Mini, Monte MacDiarmid. Pré -impressão 23
PromptKD: Distilação de conhecimento amigável para o aluno para modelos de idiomas generativos por meio de ajuste rápido (Nota: não paramétrico)
Gyeongman Kim, Doohyuk Jang, Eunho Yang. Descobertas EMNLP'24
Do treinamento da instância ao aprendizado de instrução: Adaptadores de tarefas geração de instruções
Huanxuan Liao, Yao Xu, Shizhu He, Yuanzhe Zhang, Yanchao Hao, Shengping Liu, Kang Liu, Jun Zhao. Nips'24
Quando os bebês ensinam bebês: o compartilhamento de conhecimento dos alunos pode superar a destilação guiada por professores em pequenos conjuntos de dados?
Srikrishna Iyer. Oficina de Conll em EMNLP'24
Onebit: em direção a modelos de linguagem grande extremamente baixos
Yuzhuang Xu, Xu Han, Zonghan Yang, Shuo Wang, Qingfu Zhu, Zhiyuan Liu, Weidong Liu, Wanxiang Che. Nips'24
O custo da compressão: investigando o impacto da compressão no conhecimento paramétrico em modelos de linguagem
Satya Sai Srinath Namburi, Sreedhar, Srinath Srinivasan, Frederic Sala. Descobertas emnlp'23
Despertar geração aumentada: aprendendo a despertar o conhecimento interno de grandes modelos de idiomas para responder a perguntas
[Hypernet, RAG, compressão de contexto]
Huanxuan Liao, Shizhu He, Yao Xu, Yuanzhe Zhang, Kang Liu, Shengping Liu, Jun Zhao. Aaai'25
Injeções de memória: corrigindo falhas de raciocínio multi-hop durante a inferência em modelos de idiomas baseados em transformadores
Mansi Sakarvadia, Aswathy Ajith, Arham Khan, Daniel Grzenda, Nathaniel Hudson, André Bauer, Kyle Chard, Ian Foster. Apresentação oral no Workshop BlackBoxnlp em EMNLP'23
Decompar o conhecimento de parâmetros para modelagem de idiomas plug-and-play
Xin Cheng, Yankai Lin, Xiuying Chen, Dongyan Zhao, Rui Yan. Descobertas ACL'23
Injeção de conhecimento no parâmetro: integrando informações contextuais temporárias nos parâmetros do modelo
enviado ao ICLR'25
Kformer: Injeção de conhecimento em camadas de feed-forward do transformador
Yunzhi Yao, Shaohan Huang, Li Dong, Furu Wei, Huajun Chen, Ningyu Zhang. NLPCC'22
KASA: Adaptação de valor singular com reconhecimento de conhecimento de modelos de linguagem grande
[Lora com reconhecimento de conhecimento, SVD]
Fan Wang, Juyong Jiang, Chansung Park, Sunghun Kim, Jing Tang. Preprint'24
CORDA: Adaptação de decomposição orientada para o contexto de grandes modelos de linguagem para ajuste fino com consciência de tarefas com consciência de tarefas
[Lora com reconhecimento de conhecimento, SVD]
Yibo Yang, Xiaojie Li, Zhongzhu Zhou, Shuaiwen Leon Song, Jianlong Wu, Liqiang Nie, Bernard Ghanem. Nips'24
Dora: adaptação de baixo rank de decomposição de peso
[LORA DESPENSO DE PESO, SVD, ANÁLISE DE FT E LORA] Shih-Yang Liu, Chien-Yi Wang, Hongxu Yin, Pavlo Molchanov, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Min-Hung Chen. Icml'24 oral
Adaptação de baixo rank com aprimoramento de recursos relevantes para tarefas para modelos de linguagem de ajuste fino
[Lora com reconhecimento de tarefas, aprimoramento da representação oculta] Aaai'25 Workshop Colorai
Saiba mais, mas se preocupe menos: Aprendizagem contínua eficiente em parâmetro
[Aprendizagem contínua, parâmetro eficiente, transferência de conhecimento] Nips'24
O que meu modelo esquecerá? Previsão de exemplos esquecidos no refinamento do modelo de idioma
[Esquecimento catastrófico, previsão de esquecimento, análise] ICML'24 Spotlight
XRAG: Compressão de contexto extremo para geração de recuperação com agitação com um token
[Compressão de contexto, trapo, fusão multimodal] Nips'24
Longembed: estendendo modelos de incorporação para recuperação de contexto longo
[Longo contexto, modelo de incorporação, benchmark] Emnlp'24
LLM talvez Longlm: Janela de contexto LLM de extensão auto-estendida sem ajustar
[Método de extensão do contexto longo, método plug-and-play] ICML'24 Spotlight
Duas pedras atingem um pássaro: codificação posicional de bilevel para melhor extrapolação de comprimento
[Longo contexto se estende, Pe + PE relativo, plug-and-play, mas método baseado em treinamento] ICML'24
Yarn: Extensão eficiente da janela de contexto de grandes modelos de linguagem [http://arxiv.org/abs/2309.00071]
[Longo contexto se estende, variação de corda] ICLR'24
Trem curto, teste longo: atenção com vieses lineares permite extrapolação de comprimento de entrada
[Alibi, extrapolato de contexto longo, método baseado em treinamento] ICLR'22
ROFORMER: transformador aprimorado com incorporação de posição rotativa.
[Incorporação de posição rotativa, clássico]