Creemos que el conocimiento paramétrico en LLM sigue siendo un área en gran medida inexplorada, y esperamos que este repositorio le proporcione algunas ideas valiosas.
Decodificación de neuronas de características especializadas en LLMS con la capa de proyección final
[Lente logits, análisis de la neurona de consulta]
¿Qué tiene que ver la tesis de neuronas del conocimiento con el conocimiento?
Jingcheng Niu, Andrew Liu, Zining Zhu, Gerald Penn. ICLR'24 (Spotlight)
Mecanismos de conocimiento en modelos de idiomas grandes: una encuesta y perspectiva
Mengru Wang, Yunzhi Yao, Ziwen Xu, Shuofei Qiao, Shumin Deng, Peng Wang, Xiang Chen, Jia-Chen Gu, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen, Ningyu Zhang. EMNLP'24 Hallazgos
Desengaste de memoria y capacidad de razonamiento en modelos de idiomas grandes
Mingyu Jin, Weidi Luo, Sitao Cheng, Xinyi Wang, Wenyue Hua, Ruixiang Tang, William Yang Wang, Yongfeng Zhang. preimpresión24
Colapso lingüístico: colapso neuronal en modelos de idiomas (grandes)
Robert Wu, Vardan Papyan. NIPS'24
Comprender la interacción entre el conocimiento paramétrico y contextual para modelos de idiomas grandes
Sitao Cheng, Liangming Pan, Xunjian Yin, Xinyi Wang, William Yang Wang. Preimpresión24
Evaluación de la fusión de conocimiento externo y paramétrico de modelos de idiomas grandes
Hao Zhang, Yuyang Zhang, Xiaoguang Li, Wenxuan Shi, Haonan Xu, Huanshuo Liu, Yasheng Wang, Lifeng Shang, Qun Liu, Yong Liu, Ruiming Tang. Preimpresión24
Camaleón adaptativo o perezoso terco: revelando el comportamiento de los modelos de idiomas grandes en los conflictos de conocimiento
Jian Xie, Kai Zhang, Jiangjie Chen, Renze Lou, Yu Su. ICLR'24 Spotlight
La descomposición de la entropía de conocimiento durante el modelo de lenguaje previa a la adquisición de conocimientos
Jiyeon Kim, Hyunji Lee, Hyowon Cho, Joel Jang, Hyeonbin Hwang, Seungpil Won, Yoebin Ahn, Dohaeng Lee, Minjoon Seo. Preimpresión24
Cuando el contexto lidera pero la memoria paramétrica sigue en modelos de lenguaje grandes
Yufei Tao, Adam Hiatt, Erik Haake, Antonie J. Jetter, Ameeta Agrawal. EMNLP'24
Atribución de conocimiento a nivel de neuronas en modelos de idiomas grandes
Zeping Yu, Sophia Ananiadou. EMNLP'24
Diseccionar el recuerdo de las asociaciones fácticas en modelos de lenguaje autoregresivo [Código]
Mor Geva, Jasmijn Bastings, Katja Filippova, Amir Globerson. EMNLP'23
Las capas del avance del transformador son recuerdos de valor clave
Mor Geva, Roei Schuster, Jonathan Berant, Omer Levy. EMNLP'21
¿La localización del conocimiento es cierta? Diferencias sorprendentes entre la entidad y las perspectivas de relación en los modelos de idiomas
Yifan Wei, Xiaoyan Yu, Yixuan Weng, Huanhuan MA, Yuanzhe Zhang, Jun Zhao, Kang Liu. CIKM'24
Localización y edición de asociaciones fácticas en GPT
Kevin Meng, David Bau, Alex Andonian, Yonatan Belinkov. NIPS'22
Identificación de neuronas relevantes de consultas en modelos de lenguaje grande para textos de forma larga
Lihu Chen, Adam Dejl, Francesca Toni. Preimpresión24
Revelando el conocimiento paramétrico de los modelos de lenguaje: un marco unificado para los métodos de atribución
Haeun Yu, Pepa Atanasova, Isabelle Augenstein. Acl'24
¿El modelo de lenguaje grande contiene neuronas específicas de tareas?
Ran Song, Shizhu He, cerrando a Jiang, Yantuan Xian, Shengxiang Gao, Kang Liu y Zhengtao Yu. EMNLP'24
Viaje al centro del conocimiento neuronas: descubrimientos de neuronas de conocimiento independientes del lenguaje y degenerar neuronas de conocimiento
Yuheng Chen, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao. Aaai'24
Neuronas de conocimiento en transformadores previos a la aparición
Damai Dai, Li Dong, Yaru Hao, Zhifang Sui, Baobao Chang, Furu Wei. Acl'22
Separar la lengua del pensamiento: el parcheo de activación revela representaciones conceptuales del lenguaje en los transformadores
Clément Dumas, Chris Wendler, Veniamin Veselovsky, Giovanni Monea, Robert West. ICLR'24 Spotlight
Desde sí, hombres hasta telladores de verdad que abordan la skicancia en modelos de idiomas grandes con ajuste preciso
Wei Chen, Zhen Huang, Liang Xie, Binbin Lin, Houqiang Li, Le Lu, Xinmei Tian, Deng Cai, Yonggang Zhang, Wenxiao Wang, Xu Shen, Jieping Ye. ICML'24
Neuronas específicas del lenguaje: la clave para las capacidades multilingües en modelos de idiomas grandes.
Tianyi Tang, Wenyang Luo, Haoyang Huang, Dongdong Zhang, Xiaolei Wang, Xin Zhao, Furu Wei, Ji-Rong Wen. Acl'24
Dirección multipropertía de modelos de idiomas grandes con composición de activación dinámica
Daniel Scalena, Gabriele Sarti, Malvina Nissim. ACL'24 Taller BlackboxNLP
Explorando el beneficio de la escasez de activación en el entrenamiento previo
[Moe, Sparsity de activación, patrón de activación, aceleración de inferencia] Zhengyan Zhang, Chaojun Xiao, Qiujieli Qin, Yankai Lin, Zhiyuan Zeng, Xu Han, Zhiyuan Liu, Ruobing Xie, Maosong Sun, Jie Zhou. ICML'24
Adición de activación: modelos de lenguaje de dirección sin optimización
Alexander Matt Turner, Lisa Thiergart, Gavin Leech, David Udell, Juan J. Vázquez, Ulisse Mini, Monte Macdiarmid. Preimpresión23
Deja Vu: escasez contextual para LLM eficientes en el momento de la inferencia
[Sparsity, Speedup de inferencia] Zichang Liu, Jue Wang, Tri Dao, Tianyi Zhou, Binhang Yuan, Zhao Song, Anshumali Shrivastava, Ce Zhang, Yuandong Tian, Christopher re, Beidi Chen. ICML'23
Un estudio exhaustivo de la edición de conocimiento para modelos de idiomas grandes
Ningyu Zhang, Yunzhi Yao, Bozhong Tian, Peng Wang, Shumin Deng, Mengru Wang, Zekun Xi, Shengyu Mao, Jintian Zhang, Yuansheng Ni, Siyuan Cheng, Ziwen Xu, Xin Xu, Jia-Chen Gu, Yong Jiang, Pengeng Xie, Fei, Fei Huang, LEI, LEIH Liang, Zhiqiang Zhang, Xiaowei Zhu, Jun Zhou, Huajun Chen. Preimpresión24
Fama: Hacia la edición de modelos de tareas múltiples de hecho , Li Zeng, Yingyu Shan, Zeming Liu, Jiashu Yao, Yuhang Guo. EMNLP'24
¿Olvidar o no? Hacia el desaprendizaje del conocimiento práctico para modelos de idiomas grandes
Bozhong Tian, Xiaozhuan Liang, Siyuan Cheng, Qingbin Liu, Mengru Wang, Dianbo Sui, Xi Chen, Huajun Chen, Ningyu Zhang. EMNLP'24 Hallazgos
Comprender el colapso de LLM en la edición de modelos
Wanli Yang, Fei Sun, Jiajun Tan, Xinyu MA, Du Su, Dawei Yin, Huawei Shen. EMNLP'24 Hallazgos
¿Es posible editar modelos de idiomas grandes de manera robusta?
Xinbei MA, Tianjie Ju, Jiyang Qiu, Zhuosheng Zhang, Hai Zhao, Lifeng Liu, Yulong Wang. Preimpresión24
Edición de conocimiento mejorada por recuperación en modelos de idiomas para respuestas a preguntas múltiples
Yucheng Shi, Qiaoyu Tan, Xuansheng Wu, Shaochen Zhong, Kaixiong Zhou, Ninghao Liu. CIKM'24
Parafraseo latente: la perturbación en las capas mejora la inyección de conocimiento en los modelos de idiomas
Minki Kang, Sung Ju Hwang, Gibbeum Lee, Jaewoong Cho. NIPS'24
Aprender a editar: Alineando LLM con edición de conocimiento
Yuxin Jiang, Yufei Wang, Chuhan Wu, Wanjun Zhong, Xingshan Zeng, Jiahui Gao, Lianggyou Li, Xin Jiang, Lifeng Shang, Ruiming Tang, Qun Liu, Wei Wang. Acl'24
Inspeccionar y editar representaciones de conocimiento en modelos de idiomas
Evan Hernández, Belinda Z. Li, Jacob Andreas. Colm'24
Olvidar antes de aprender: Utilización de la aritmética paramétrica para la actualización del conocimiento en modelos de idiomas grandes
Shiwen Ni, Dingwei Chen, Chengming Li, Xiping Hu, Ruifeng Xu, Min Yang. Acl'24
Ethos: modelos de lenguaje rectificador en el espacio de parámetros ortogonales
[Desaprendizaje tóxico/sesgo, SVD, análisis del conocimiento paramétrico, vector de tareas]
Hallazgos de NaAaCl'24
Edición de modelos de idiomas grandes: problemas, métodos y oportunidades
Yunzhi Yao, Peng Wang, Bozhong Tian, Siyuan Cheng, Zhoubo Li, Shumin Deng, Huajun Chen, Ningyu Zhang. EMNLP'23
Localización y edición de asociaciones fácticas en GPT
Kevin Meng, David Bau, Alex Andonian, Yonatan Belinkov. NIPS'22
Edición de modelo basada en la memoria a escala
Eric Mitchell, Charles Lin, Antoine Bosselut, Christopher D. Manning, Chelsea Finn. ICLR'22
Edición de conocimientos fácticos en modelos de idiomas
Nicola de Cao, Wilker Aziz, Ivan Titov. EMNLP'21
Redes neuronales editables.
Anton Sinitsin, Vsevolod Plokhotnyuk, Dmitriy Pyrkin, Sergei Popov, Artem Babenko. ICLR'20
Ming Zhong, Chenxin AN, Weizhu Chen, Jiawei Han, Pengcheng He. ICLR'24
Inicializar modelos con otros más grandes
Zhiqiu Xu, Yanjie Chen, Kirill Vishniakov, Yida Yin, Zhiqiang Shen, Trevor Darrell, Lingjie Liu, Zhuang Liu. ICLR'24 Spotlight
Control de modelo cruzado: Mejora de múltiples modelos de idiomas grandes en capacitación única
Jiayi Wu, Hao Sun, Hengyi Cai, Lixin Su, Shuaiqiang Wang, Dawei Yin, Xiang Li, Ming Gao. NIPS'24
Fusión de conocimiento de modelos de idiomas grandes
Fanqi Wan, Xinting Huang, Deng Cai, Xiaojun Quan, Wei Bi, Shuming Shi. ICLR'24
Tuning Language Models por proxy
Alisa Liu, Xiaochuang Han, Yizhong Wang, Yulia Tsvetkov, Yejin Choi, Noah A. Smith. Colm'24
Chat Vector: un enfoque simple para equipar LLM con la instrucción seguida y alineación del modelo en nuevos idiomas
[Vector de tareas, conocimiento paramétrico, transferencia de conocimiento]
Acl'24
Fedmkt: transferencia de conocimiento mutuo federado para modelos de idiomas grandes y pequeños
[Aprendizaje federado, transferencia de conocimiento, alineación de tokens heterogéneo]
Coling'25
Vectores de funciones en modelos de idiomas grandes
[Vector de función, mediación causal, interpretación del mecanismo]
ICLR'24
Refinar el modelo de lenguaje grande ajustado a través de instrucciones vector
[Olvido catastrófico, vector de función, mediación causal]
Preimpresión24
KLF: Localización de conocimiento y fusión para el aprendizaje continuo del modelo de idioma
[Olvido catastrófico, aprendizaje continuo, ubicación basada en la sensación]
Acl'24
Los modelos de idiomas son Super Mario: habilidades de absorción de modelos homólogos como un almuerzo gratis
[Transferencia de conocimiento, fusión de modelo, habilidad eficiente] ICML'24
Más allá de los vectores de tareas: aritmética selectiva de tareas basado en métricas de importancia
[Vector de tareas, puntaje de importancia basado en la sensatividad, fusión del modelo] preprint'24
Mejora mutua de modelos de idiomas grandes y pequeños con transferencia de conocimiento cruzado
Yongheng Deng, Ziqing Qiao, Ju Ren, Yang Liu, Yaoxue Zhang. Preimpresión23
Aprender a cultivar modelos previos a la pretrada para un entrenamiento de transformadores eficientes
Peihao Wang, Rameswar Panda, Lucas Torroba Hennigen, Philip Greengard, Leonid Karlinsky, Rogerio Feris, David D. Cox, Zhangyang Wang, Yoon Kim. ICLR'23
Transferencia de conocimiento basada en la recuperación: un enfoque efectivo para la compresión del modelo de lenguaje grande extremo
Jiduan Liu, Jiahao Liu, Qifan Wang, Jingang Wang, Xunliang Cai, Dongyan Zhao, corrió Lucien Wang, Rui Yan. EMNLP'23 Hallazgos
Modelos de edición con aritmética de tareas
[Tarea Vecotr, conocimiento paramétrico, transferencia de conocimiento, aprendizaje de tareas múltiples]
ICLR'23
Localización de habilidades específicas de la tarea en modelos de lenguaje ajustados
[Transferencia de conocimiento, injerto modelo, localización de parámetros de habilidad]
ICML'23
Componer módulos de parámetros eficientes con operaciones aritméticas
[Peft, Vector de tareas, Modelo Fusion]
NIPS'23
Fusión de conocimiento de la datos fusionando pesos de modelos de idiomas
[Modelo de fusión]
ICLR'23
Destilación de peso: transferir el conocimiento en los parámetros de la red neuronal
Ye Lin, Yanyang Li, Ziyang Wang, Bei Li, Quan du, Tong Xiao, Jingbo Zhu. Acl'21
Dirección multipropertía de modelos de idiomas grandes con composición de activación dinámica
Daniel Scalena, Gabriele Sarti, Malvina Nissim. ACL'24 Taller BlackboxNLP
Las incrustaciones de palabras son novillos para modelos de idiomas
[Dirección de incrustación de palabras, control de generación] ACL'24
Alexander Matt Turner, Lisa Thiergart, Gavin Leech, David Udell, Juan J. Vázquez, Ulisse Mini, Monte Macdiarmid. Preimpresión23
Pittkd: destilación de conocimiento amigable para los estudiantes para modelos de lenguaje generativo a través de un ajuste de inmediato (nota: no paramétrico)
Gyeongman Kim, Doohyuk Jang, Eunho Yang. EMNLP'24 Hallazgos
De la capacitación de instancias hasta el aprendizaje de instrucciones: generación de adaptadores de tareas a partir de instrucciones
Huanxuan Liao, Yao Xu, Shizhu He, Yuanzhe Zhang, Yanchao Hao, Shengping Liu, Kang Liu, Jun Zhao. NIPS'24
Cuando los bebés enseñan bebés: ¿pueden el intercambio de conocimientos de los estudiantes superan la destilación guiada por los maestros en pequeños conjuntos de datos?
Srikrishna Iyer. EMNLP'24 CONLL Taller
Onebit: Hacia modelos de idiomas grandes de bits extremadamente bajos
Yuzhuang Xu, Xu Han, Zonghan Yang, Shuo Wang, Qingfu Zhu, Zhiyuan Liu, Weidong Liu, Wanxiang Che. NIPS'24
El costo de la compresión: investigar el impacto de la compresión en el conocimiento paramétrico en los modelos de idiomas
Satya Sai Srinath Namburi, improvisada Sreedhar, Srinath Srinivasan, Frederic Sala. EMNLP'23 Hallazgos
Despertar generación aumentada: aprender a despertar el conocimiento interno de los modelos de idiomas grandes para la respuesta a las preguntas
[Hypernet, trapo, compresión de contexto]
Huanxuan Liao, Shizhu He, Yao Xu, Yuanzhe Zhang, Kang Liu, Shengping Liu, Jun Zhao. Aaai'25
Inyecciones de memoria: corrección de fallas de razonamiento de múltiples saltos durante la inferencia en modelos de lenguaje basados en transformadores
Mansi Sakarvadia, Aswathy Ajith, Arham Khan, Daniel Grzenda, Nathaniel Hudson, André Bauer, Kyle Chard, Ian Foster. Presentación oral en el taller Blackboxnlp en EMNLP'23
Conocimiento decouple de los parámetros para el modelado de idiomas plug-and-play
Xin Cheng, Yankai Lin, Xiuying Chen, Dongyan Zhao, Rui Yan. Hallazgos de acl'23
Inyección de conocimiento en parámetro: integrar información contextual temporal en parámetros del modelo
Enviado a ICLR'25
Kformer: inyección de conocimiento en capas de transformador de alimentación
Yunzhi Yao, Shaohan Huang, Li Dong, Furu Wei, Huajun Chen, Ningyu Zhang. Nlpcc'22
KASA: Adaptación de valor singular con conocimiento de conocimiento de modelos de idiomas grandes
[Conocimiento de conocimiento Lora, SVD]
Fan Wang, Juyong Jiang, Chansung Park, Sunghun Kim, Jing Tang. Preimpresión24
Corda: adaptación de descomposición orientada al contexto de modelos de lenguaje grande para el ajuste fino de los parámetros conscientes de las tareas
[Conocimiento de conocimiento Lora, SVD]
Yibo Yang, Xiaojie Li, Zhongzhu Zhou, Shuaiwen Leon Song, Jianlong Wu, Liqiang Nie, Bernard Ghanem. NIPS'24
Dora: adaptación de bajo rango descompuesto de peso
[Lora descompuesta de peso, SVD, Análisis de FT y Lora] Shih-Yang Liu, Chien-yi Wang, Hongxu Yin, Pavlo Molchanov, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Min-Hung Chen. Icml'24 oral
Adaptación de bajo rango con mejora de características relevantes para tareas para modelos de lenguaje ajustado
[Tarea-Award Lora, Mejora de la representación oculta] AAAI'25 taller de colorai
Obtenga más información, pero moleste menos: aprendizaje continuo eficiente de los parámetros
[Aprendizaje continuo, parámetro eficiente, transferencia de conocimiento] NIPS'24
¿Qué olvidará mi modelo? Pronosticar ejemplos olvidados en refinamiento del modelo de idioma
[Olvido catastrófico, olvido de pronóstico, análisis] ICML'24 Spotlight
xrag: compresión de contexto extremo para la generación de recuperación con una token
[Contexto Compresión, trapo, fusión multimodal] NIPS'24
Lungueque: extender los modelos de incrustación para la recuperación de contexto largo
[Contexto largo, modelo de incrustación, Benchmark] EMNLP'24
LLM Quizás Longlm: Ventana de contexto de autoextend LLM sin sintonizar
[Método de contexto largo, plug-and-play] ICML'24 Spotlight
Dos piedras golpean un pájaro: codificación posicional de nivel bille para extrapolación de mejor longitud
[Se extiende el contexto largo, PE + PE relativo absoluto, método plug-and-play pero basado en el entrenamiento] ICML'24
Hilo: extensión de ventana de contexto eficiente de modelos de idiomas grandes [http://arxiv.org/abs/2309.00071]
[Extensión del contexto largo, variación de la cuerda] iclr'24
Train corto, prueba larga: la atención con sesgos lineales permite extrapolación de longitud de entrada
[Alibi, contexto largo extrapolado, método basado en el entrenamiento] ICLR'22
ROFORMER: Transformador mejorado con incrustación de posición rotativa.
[Incrustación de posición rotativa, clásico]