Awesome LLM Conocsistencia: una lista curada de autoconsistencia en modelos de idiomas grandes
Este repositorio, llamado autoconsistencia de LLMS , contiene una colección de recursos y artículos sobre autoconsistencia en modelos de idiomas grandes .
" No puedo ver un camino que garantice la seguridad. Estamos entrando en un período de gran incertidumbre en el que estamos lidiando con cosas que nunca hemos tratado antes, y no podemos permitirnos equivocarnos con estas cosas porque podrían hacerse cargo".
¡Bienvenido a compartir sus documentos, pensamientos e ideas enviando un problema!
Enseñar modelos de idiomas a la razón
Denny Zhou, Google Deepmind
[Enlace]
Septiembre 2023
El camino hacia la inteligencia general artificial: ideas del diálogo adversario de LLM
Edward Y. Chang
Socrasynth.com, [enlace]
Marzo de 2024
Modelos de base para el procesamiento del lenguaje natural: modelos de lenguaje previamente capacitados que integran medios de comunicación
Gerhard Paaß, Sven Giesselbach
Inteligencia artificial: fundamentos, teoría y algoritmos (Nature de Springer), [enlace]
16 de febrero de 2023
Consistencia GSM8K :
Consistencia del razonamiento aritmético en el punto de referencia GSM8K
Shuyue jia
Cara abrazada 2023, [Cara abrazada] [Github]
01 de diciembre de 2023
GSM8K :
VERIFICADORES DE CONSEJO para resolver problemas de palabras matemáticas
Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, Christopher Hesse, John Schulman
Arxiv 2021, [Paper] [Github] [Publicación de blog]
18 de noviembre de 2021
Singleeq :
Analización de problemas de palabras algebraicas en ecuaciones
Rik Koncel-Kedziorski, Hannaneh Hajishirzi, Ashish Sabharwal, Oren Etzioni, Siena Dumas Ang
TACL 2015, [Paper] [GitLab]
24 de junio de 2015
AddSub :
Aprender a resolver problemas de palabras aritméticas con la categorización verbal
Mohammad Javad Hosseini, Hannaneh Hajishirzi, Oren Etzioni, Nate Kushman
EMNLP 2014, [Paper] [Gitlab]
25 de octubre de 2014
MultiAth :
Resolver problemas generales de palabras aritméticas
Subhro Roy, Dan Roth
EMNLP 2015, [Paper] [Página web]
17 de septiembre de 2015
Aqua-rat :
Inducción del programa por Rationale Generation: Aprender a resolver y explicar problemas de palabras algebraicas
Wang Ling, Dani Yogatama, Chris Dyer, Phil Blunsom
ACL 2017, [documento] [Github]
30 de julio de 2017
Svamp :
¿Son realmente capaces de resolver los modelos de PNL para resolver problemas simples de palabras matemáticas?
Arkil Patel, Satwik Bhattamishra, Navin Goyal
NAACL 2021, [Documento] [GitHub]
6 de julio de 2021
Asdiv :
Un corpus diverso para evaluar y desarrollar solucionadores de problemas de palabras matemáticas en inglés
Shen-yun Miao, Chao-Chun Liang, Keh-yih Su
ACL 2020, [documento] [Github]
5 de julio de 2020
CSQA :
Commonsenseqa: un desafío de respuesta a la pregunta dirigida al conocimiento de sentido común
Alon Talmor, Jonathan Herzig, Nicholas Lourie, Jonathan Berant
NAACL 2019, [Paper] [Página web]
15 de marzo de 2019
Becel :
Becel: punto de referencia para la evaluación de consistencia de los modelos de idiomas
Myeongjun Jang, Deuk Sin Kwon, Thomas Lukasiewicz
Coling 2022, [documento] [Github]
12 de octubre de 2022
Preguntas de escuadrón parafraseados :
Mejora de la robustez de los sistemas de respuesta a las preguntas para parafrasear
Wee chung gan, hwee tou ng
ACL 2019, [documento] [Github]
28 de julio de 2019
Becel :
Becel: punto de referencia para la evaluación de consistencia de los modelos de idiomas
Myeongjun Jang, Deuk Sin Kwon, Thomas Lukasiewicz
Coling 2022, [documento] [Github]
12 de octubre de 2022
Dos fallas de autoconsistencia en el razonamiento de varios pasos de LLMS
Angelica Chen, Jason Phang, Alicia Parrish, Vishakh Padmakumar, Chen Zhao, Samuel R. Bowman, Kyunghyun Cho
ARXIV 2023, [Documento]
2 de octubre de 2023
Mpararel :
Mpararel: consistencia fáctica de modelos de lenguaje prenedero multilingüe
Constanza Fierro, Anders Søgaard
Hallazgos de ACL: ACL 2022, [documento] [Github]
22 de marzo de 2022
Pararel :
Pararel: Metal :: Medición y mejora de la consistencia en modelos de lenguaje previos a la aparición
Yanai Elazar, Nora Kassner, Shauli Ravfogel, Abhilasha Ravichander, Eduard Hovy, Hinrich Schütze, Yoav Goldberg
TACL 2021, [Documento] [GitHub] [Presentación]
29 de mayo de 2021
Math-Shepherd: Verifique y refuerza LLMS paso a paso sin anotaciones humanas
Peiyi Wang, Lei Li, Zhihong Shao, Rx Xu, Damai Dai, Yifei Li, Deli Chen, Y.Wu, Zhifang Sui
ARXIV 2023, [Documento]
28 de diciembre de 2023
Una encuesta de razonamiento con modelos de base
Jiankai Sun, Chuanyang Zheng, Enze Xie, Zhenging Liu, Ruihang Chu, Jianing Qiu, Jiaqi Xu, Mingyu Ding, Hongyang Li, Mengzhe Geng, Yue Wu, Wenhai Wang, Junsong Chen, Zhangyue Yin, Xiaozhe Ren, Jie Fu, Junsug, Junsong Chen, Zhangyue Yin, Xiaozhe Sil Liu, Xihui Liu, Yu Li, Hao Dong, Yu Cheng, Ming Zhang, Pheng Ann Heng, Jifeng Dai, Ping Luo, Jingdong Wang, Ji-Rong Wen, Xipeng Qiu, Yike Guo, Hui Xiong, Qun Liu, Zhegudo Li
ARXIV 2023, [Documento] [GitHub]
26 de diciembre de 2023
La consulta y el aumento de respuesta no pueden ayudar a desanimar la generalización de razonamiento matemático
Chengpeng Li, Zheng Yuan, Hongyi Yuan, Guanting Dong, Keming Lu, Jiancan Wu, Chuanqi Tan, Xiang Wang, Chang Zhou
ARXIV 2023, [Documento] [GitHub]
1 de noviembre de 2023
Metamath: Bootstrap sus propias preguntas matemáticas para modelos de idiomas grandes
Longhui Yu, Weisen Jiang, Han Shi, Jincheng Yu, Zhengying Liu, Yu Zhang, James T. Kwok, Zhenguo Li, Adrian Weller, Weiyang Liu
ARXIV 2023, [Documento] [GitHub]
9 de octubre de 2023
Los modelos de idiomas grandes son mejores razonadores con autoverificación
Yixuan Weng, Minjun Zhu, Fei Xia, Bin Li, Shizhu He, Shengping Liu, Bin Sun, Kang Liu, Jun Zhao
EMNLP 2023 Hallazgos, [Documento] [GitHub]
19 de octubre de 2023
Razonamiento con indicación del modelo de idioma: una encuesta
Shuofei Qiao, Yixin Ou, Ningyu Zhang, Xiang Chen, Yunzhi Yao, Shumin Deng, Chuanqi Tan, Fei Huang, Huajun Chen
ACL 2023, [documento] [Github]
18 de septiembre de 2023
Relación de escala en el aprendizaje del razonamiento matemático con modelos de idiomas grandes
Zheng Yuan, Hongyi Yuan, Chengpeng Li, Guanting Dong, Keming Lu, Chuanqi Tan, Chang Zhou, Jingren Zhou
ARXIV 2023, [Documento] [GitHub]
3 de agosto de 2023
Los modelos de lenguaje grande pueden distraerse fácilmente por un contexto irrelevante
Freda Shi, Xinyun Chen, Kanishka Misra, Nathan Scales, David Dohan, Ed Chi, Nathanael Schärli, Denny Zhou
ICML 2023, [Paper] [Github]
6 de junio de 2023
Hacia el razonamiento en modelos de idiomas grandes: una encuesta
Jie Huang, Kevin Chen-Chuan Chang
Hallazgos de ACL 2023, [documento] [Github]
26 de mayo de 2023
AutoRefino: Refinamiento iterativo con autocuración
Aman Madaan, Niket Tandon, Prakhar Gupta, Skyler Hallinan, Luyu Gao, Sarah Wiegreffe, Uri Alon, Nouha Dziri, Shrimai Prabhumoye, Yiming Yang, Shashank Guppta, Bodhisattwa Prasad Majumder, Katherine Hermann, Sean Welleck, AMIRBAKH, PETRESTWA, PETERSET Aclarar
ARXIV 2023, [Paper] [GitHub] [Página web]
25 de mayo de 2023
AutoRefino: Refinamiento iterativo con autocuración
Aman Madaan, Niket Tandon, Prakhar Gupta, Skyler Hallinan, Luyu Gao, Sarah Wiegreffe, Uri Alon, Nouha Dziri, Shrimai Prabhumoye, Yiming Yang, Shashank Guppta, Bodhisattwa Prasad Majumder, Katherine Hermann, Sean Welleck, AMIRBAKH, PETRESTWA, PETERSET Aclarar
ARXIV 2023, [Documento] [Sitio web] [GitHub] [Demo]
25 de mayo de 2023
Muestra paso a paso: consistencia adaptativa para un razonamiento eficiente con LLMS
Pranjal Aggarwal, Aman Madaan, Yiming Yang, Mausam
ARXIV 2023, [Documento] [Sitio web] [GitHub]
19 de mayo de 2023
La autoconsistencia mejora el razonamiento de la cadena de pensamiento en los modelos de idiomas
Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Sharan Narang, Aakanksha Chowdhery, Denny Zhou
ICLR 2023, [papel]
7 de marzo de 2023
La provisión de la cadena de pensamiento provoca el razonamiento en modelos de idiomas grandes
Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, Denny Zhou
Neurips 2022, [papel]
28 de enero de 2022
Consistencia semántica para asegurar la fiabilidad de los modelos de idiomas grandes
Harsh Raj, Vipul Gupta, Domenic Rosati, Subhabrata Majumdar
ARXIV 2023, [Documento]
17 de agosto de 2023
Medición de la fiabilidad de los modelos de idiomas grandes a través de la consistencia semántica
Harsh Raj, Domenic Rosati, Subhabrata Majumdar
ML Taller de seguridad, Neurips 2022, [papel]
28 de noviembre de 2022
Consistencia rápida para la generalización de tareas de disparo cero
Chunking Zhou, Junxian He, Xuezhe MA, Taylor Berg-Kirkpatrick, Graham Neubig
Hallazgos de ACL: EMNLP 2022, [Paper] [Github]
27 de diciembre de 2022
¿Exacto, pero inconsistente? Análisis de consistencia en modelos de comprensión del lenguaje
Myeongjun Jang, Deuk Sin Kwon, Thomas Lukasiewicz
ARXIV 2021, [Documento]
15 de agosto de 2021
Evolución de la similitud semántica: una encuesta
Dhivya Chandrasekaran, Vijay Mago
ACM Computing Survey 2021, [documento]
30 de enero de 2021
Mejorar la autoconsistencia y el rendimiento de los modelos de lenguaje previamente capacitados a través de la inferencia del lenguaje natural
Eric Mitchell, Joseph Noh, Siyan Li, Will Armstrong, Ananth Agarwal, Patrick Liu, Chelsea Finn, Christopher Manning
EMNLP 2022, [Documento] [Sitio web] [GitHub]
21 de noviembre de 2022
RCOT: detectar y rectificar la inconsistencia fáctica en el razonamiento revertiendo la cadena de pensamiento
Tianci Xue, Ziqi Wang, Zhenhailong Wang, Chi Han, Pengfei Yu, Heng Ji
ARXIV 2023, [Documento]
2 de octubre de 2023
Adaptadores P: extrayendo de manera robusta de la información objetiva de modelos de idiomas con diversas indicaciones
Benjamin Newman, Prafulla Kumar Choubey, Nazneen Rajani
ICLR 2022, [documento] [Github]
19 de abril de 2022
¿Cómo podemos saber lo que saben los modelos de idiomas?
Zhengbao Jiang, Frank F. Xu, Jun Araki, Graham Neubig
TACL 2020, [Documento] [GitHub]
3 de mayo de 2020
BIOMEDGPT: un transformador pre-entrenado biomédico unificado y generalista para la visión, el lenguaje y las tareas multimodales
Kai Zhang, Jun Yu, Eashan Adhikarla, Rong Zhou, Zhiling Yan, Yixin Liu, Zhengliang Liu, Lifang He, Brian Davison, Xiang Li, Hui Ren, Sunyang Fu, James Zou, Wei Liu, Jing Huang, Chen Chen, Yuyin Zhou, Tianming Liu, Xun Chen, Yong Chen, Quanzheng Li, Hongfang Liu, Lichao Sun
ARXIV 2024, [Documento] [GitHub]
9 de enero de 2024
¿Pueden los modelos de idiomas grandes razonar sobre preguntas médicas?
Valentin Liévin, Christoffer Egeberg Hother, Andreas Geert Motzfeldt, Ole Winther
ARXIV 2023, [Documento] [GitHub]
24 de diciembre de 2023
Hacia la IA biomédica generalista
Tao Tu, Shekofeh Azizi, Danny Driess, Mike Schaekermann, Mohamed Amin, Pi-Chuan Chang, Andrew Carroll, Chuck Lau, Ryutaro Tanno, Ira Ktena, Basil Mustafa, Aakanksha Chowdhery, Yuni, Simon Kornblit Wong, Sunny Virmani, Christopher Semtrurs, S Sara Mahdavi, Bradley Green, Ewa Dominowska, Blaise Aguera y Arcas, Joelle Barral, Dale Webster, Greg S. Corrado, Yossi Matias, Karan Singhal, Pete Florence, Alan Karthikesalingam, Vivek Natarajan
ARXIV 2023, [Documento] [GitHub]
26 de julio de 2023
Llava-Med: capacitación de un gran asistente de idioma y visión para biomedicina en un día
Chunyuan Li, Cliff Wong, Sheng Zhang, Naoto Usuyama, Haotian Liu, Jianwei Yang, Tristan Naumann, Hoifung Poon, Jianfeng Gao
ARXIV 2023, [Documento] [GitHub]
1 de junio de 2023
Hacia la respuesta médica a nivel experto con modelos de idiomas grandes
Karan Singhal, Tao Tu, Juraj Gottweis, Rory Sayres, Ellery Wulczyn, Le Hou, Kevin Clark, Stephen Pfohl, Heather Cole-Lewis, Darlene Neal, Mike Schaekermann, Amy Wang, Mohamed Amin, Sami Lachgar, Philip Mansfield, Sushant Prakash, Bradley Green, Ewa Dominowska, Blaise Aguera y Arcas, Nenad Tomasev, Yun Liu, Renee Wong, Christopher Semturs, S. Sara Mahdavi, Joelle Barral, Dale Webster, Greg S. Corrado, Yossi Matias, Shekoofeh Azizi, Alan Karthikesalingam, Vivek Natarajan
ARXIV 2023, [Documento]
16 de mayo de 2023
Los modelos de idiomas grandes codifican el conocimiento clínico
Karan Singhal, Shokofeh Azizi, Tao Tu, S. Sara Mahdavi, Jason Wei, Hyung Won Chung, Nathan Scales, Ajay Tanwani, Heather Cole-Lewis, Stephen Pfohl, Perry Payne, Martin Senevatne, Paul Gamble, Chris Kelly, Nathaneal Scharli, Aaksha Chowsha, Aaks Mansfield, Blaise Aguera y Arcas, Dale Webster, Greg S. Corrado, Yossi Matias, Katherine Chou, Juraj Gottweis, Nenad Tomasev, Yun Liu, Alvin Rajkomar, Joelle Barral, Christopher Semturs, Alan Karthikesalingam, Vivek Natarajan
Naturaleza, [papel]
26 de diciembre de 2022
Modelos de base multimodal: desde especialistas hasta asistentes de propósito general
Chunyuan Li, Zhe Gan, Zhengyuan Yang, Jianwei Yang, Linjie Li, Lijuan Wang, Jianfeng Gao
ARXIV 2023, [Paper] [Página web]
18 de septiembre de 2023