Descargar DecryptPrompt - Descargar el código fuente DecryptPrompt

Decryptprompt

Si la llegada repentina de LLM te hace sentir frustrado, también podrías leer las estrategias de supervivencia de tu arma para académicos de IA deprimidos en el directorio de origen. Estrella para mantener actualizado ~

Resumen de recursos LLM

Modelos de código abierto y listas de revisión
Razonamiento de código abierto, ajuste fino, agente, trapo, marcos de propermt
Open Store SFT, RLHF, conjuntos de datos previos al aire libre
Resumen de la aplicación en varios campos de AIGC
Tutoriales inmediatos, blogs clásicos y entrevistas con la conferencia de IA

Lee documentos con tu blog

Decrypt the Proltain Series 1. ANTING-FUERTO: GPT2 y GPT3 y Lama y AutoPrompt
Decrypt the Prolt Series 2. Freeze Intolion Fine Tuning LM: T5 & Pet & LM-BFF
Decrypt the Proltain Series 3. Freeze LM Aviso de ajuste Fino: Autorización de prefijo y ajuste de pedido y ajuste P
Descifrar la serie de la serie 4. Ajuste de instrucciones de actualización: Flan/T0/Instructgpt/TKINSTRUCT
Descripción de la serie de propt 5. APE+Self = Automated Instrucciones Conjunto de la implementación del código de construcción
Decrypt de la serie de la serie 6. Detalles del botón de ajuste fino de comando lora: calmarse, 1 hora realmente no es suficiente ~
Decrypt Prolta Series 7. Alineación de preferencias RLHF-Openai · Deepmind · Análisis comparativo antrópico
Decrypt the Prontitud Serie 8. No se requiere capacitación para habilitar LLM para admitir la entrada Ultra-Long: Base de conocimiento e Unlimiformer & PCW y NBCE
Decrypting Prolta de la serie 9. COT: cadena de pensamiento básico de inferencia compleja modelo y reproducción avanzada
Descripción de la rápida serie 10. Cot: exploración del principio de la cadena de pensamiento cot
Decrypt la serie rápida 11. Cot: los modelos pequeños también pueden cotizar, y la deficiencia innata se complementa después del nacimiento
Decrypt la serie rápida 12. LLM Agent Zero Tuning Fine Tuning Paradigm React & Self Pregunte
Decrypt de la serie 13. Instrucción del agente LLM Solución de ajuste fino: Formador de herramientas y gorila
Decrypt de la serie de la serie 14. Diseño de la aplicación de búsqueda del agente LLM: WebGPT & WebGLM & WebCPM
Decrypting Prolt Series 15. Diseño de la aplicación de base de datos del agente de LLM: DIN & C3 y SQL-Palm & Bird
Descifrar la serie de la serie 16. Cuanto menos datos en la experiencia de alineación de LLM, ¿mejor? Ltd & Lima y Alpagasus
Decrypt The Pront Series 17. Solución de alineación de LLM y actualización Wizardlm & Backtranslation & autoalign
Descifrado de la rápida serie 18. Mundo de agente de LLM con solo agentes
Decrypting Prolip Series 19. Aplicaciones en el campo del análisis de datos del agente LLM: Data-Copilot & InsightPilot
Descifrado de la rápida serie 20. RAG REPLAY SOBRE RECURS
Decrypting Prolip Series 21. RAG REPARACIÓN SOBRE RECUESTO Densidad de información y calidad
Decrypt Prolta Series 22. Reflexión de Rag: ¿Ha renunciado a la compresión o la inteligencia?
Decrypt the Prolta Series 23. Diagrama cerebral completo del gran modelo Clasificación de alucinación y atribución y solución de detección y mitigación
Decrypting the PropT Series 24. Estrategias de capacitación para nuevas soluciones RLHF: SLIC-HF & DPO & RRHF & RSO
Decrypt the PropT Series 25. Etiquetado de muestra del esquema de mejora RLHF: RLAIF y Salmon
Descripción de la serie rápida 26. Pensamiento humano versus pensamiento del modelo: pensamiento abstracto y divergente
Descripción de la serie de propt 27. Cómo reducir la pérdida de capacidad general en la experiencia de alineación de LLM
Decrypt the Prolta Series 28. Agente financiero del agente de LLM: Finmem y Finagent
Decrypt the Pront Series 29. LLM Soluciones de API del mundo real del agente de LLM: Toolllm y AnyTool
Descifrar la serie de aviso 30. Agente de surf de Internet del agente de LLM
Decrypt Prolta Series 31. El aprendizaje continuo del agente de LLM sobre la agilidad
Decrypting Prolt Series 32. Tarea de comprensión de la tabla de LLM - Text Modal
Decrypting Pront Series 33. Tarea de comprensión del gráfico de LLM - Capítulo multimodal
Decrypt the PropT Series 34. El entrenamiento RLHF adopta un enfoque diferente: paso a paso y más allá
Descifrar la serie de propt 35. ¡La estandarización rápida está en progreso! Brochetas de papel DSPY y ejemplos de código
Descifrar la serie de indicadores 36. Algoritmo de escritura estructurada y optimización UniPrompt
Descripción de la serie rápida 37. Múltiples estrategias para decisiones de predecisión de trapo cuándo conectarse a Internet
Decrypting Pront-Series 38. Política de enrutamiento de múltiples agentes
Descripción de la serie de propt 39. El trapo optimiza el proceso de reducción fina con la ayuda de LLM
Descripción de la serie de propt 40. Ley de escala de razonamiento de LLM
Descifrando la serie de propt 41. ¿Es Graphrag realmente una bala de plata?
Descripción de la serie de propt series 42. LLM hacia la cadena de pensamiento de complejo dinámico
Decrypt the propt series 43. LLM autocrítica
Descifrar la serie de propt 44. ¿Modo de exploración de trapo? ¿Modo de pensamiento profundo?
Decrypt the Pront Series 45. Explore la supervisión escalable de LLM, que uno es mejor en debate y juego
Descripción de los ejemplos de código de salida estructurado de propt series 46. LLM y análisis de principios
Descifrado de la serie de propt 47. Algunos análisis de características del pensamiento de O1

Resumen de documentos

lista de papeles

https://github.com/dongguanting/in-context-letarning_paperlist
https://github.com/thunlp/prompptpapers
https://github.com/timothyxxx/chain-of-thoughtspapers
https://github.com/thunlp/toollearningpapers
https://github.com/mlgroupjlu/llm-eval-survey
https://github.com/thu-coai/paperonlg
https://github.com/khuangaf/awesome-chart-interstanding

Cadena de pensamiento (aprop_chain_of_thought)

Uso básico y avanzado
- 【Los modelos de lenguaje de gran disparo cero son razonadores de disparo cero
- 【Cot de pocos disparos】 La cadena de pensamiento de pensamiento provoca un razonamiento en modelos de idiomas grandes
- 【Conocimiento de la autoconsistencia】 Mejora el razonamiento de la cadena de pensamiento en los modelos de idiomas
- 【La solicitud de menor a mayoría】 permite un razonamiento complejo en modelos de idiomas grandes
- 【Tot】 Árbol de pensamientos: resolución deliberada de problemas con modelos de idiomas grandes
- 【Planear y resolver】 Involucrar: Mejora de un razonamiento de la cadena de pensamiento cero por modelos de idiomas grandes
- 【Verificar y editar】: un marco de cadena de pensamiento mejorado por el conocimiento
- 【Obtuve】 más allá de la cadena de pensamiento y el razonamiento efectivo de gráfico de pensamiento en modelos de idiomas grandes
- 【Tomt】 Presentado del árbol de la mezcla: Combinando el pensamiento rápido y lento para el razonamiento visual de múltiples saltos
- 【Lambada】: encadenamiento hacia atrás para razonamiento automatizado en lenguaje natural
- 【AOT】 Algoritmo de pensamientos: Mejora de la exploración de ideas en modelos de idiomas grandes
- 【Obtuve】 Gráfico de pensamientos: resolver problemas elaborados con modelos de idiomas grandes
- 【PHP】 La indicación progresiva de la intención mejora el razonamiento en modelos de idiomas grandes
- 【HTT】 Los modelos de idiomas grandes pueden aprender reglas
- 【División】 La diversidad de pensamiento mejora las habilidades de razonamiento de modelos de idiomas grandes
- 【Cogtree】 de complejo a simple: desentrañar el árbol cognitivo para razonar con modelos de lenguaje pequeños
- 【Regaldo】 Da un paso atrás: evocar razonamiento a través de la abstracción en modelos de idiomas grandes
- 【Opro】 Modelos de idiomas grandes como optimizadores
- 【Bot】 búfer de pensamientos: razonamiento de lo que es lo que es lo que es un gran razonamiento de lenguaje
- Resumen de pensamiento hace que los modelos de idiomas sean mejores razonadores
- 【Symbcot】 Razonamiento lógico fiel a través de la cadena de pensamiento simbólica
- 【Xot】 todo de pensamientos: desafiando la ley del triángulo de Penrose para la generación de pensamientos
- 【【】】】 Iteración del pensamiento: aprovechando el diálogo interno para el razonamiento autónomo del modelo de lenguaje grande
- 【Dot】 en el diagrama del pensamiento
- 【ROT】 Reversión del pensamiento: Mejora de modelos de lenguaje grandes con calentamiento de razonamiento inverso guiado por preferencias.
- Pensar hacia adelante y hacia atrás: planificación efectiva hacia atrás con modelos de idiomas grandes
- 【Razonamiento de nivel K KR: Establecer creencias de orden superior en modelos de idiomas grandes para razonamiento estratégico
- 【Autodescubrimiento】 Autodescubrimiento: Modelos de lenguaje grande estructuras de razonamiento de autocompuesto
- 【Teoría de la mente】 ¿Hasta dónde están los modelos de lenguaje grandes con la teoría de la mente?
- 【PC-SUBQ】 Estrategias de incorporación para permitir que los modelos de idiomas grandes infieran la causalidad de la correlación
- El pensamiento inverso hace que los LLM estén más fuertes razonadores
Instrucciones para resolver problemas de cuna no tradicionales
- Descompuesto que solicita un enfoque modular para resolver tareas complejas
- Solicitud sucesiva para la descomposición de preguntas complejas
COT [Matemáticas, Código, Tabular, QA]
- Resolver problemas de razonamiento cuantitativo con modelos de idiomas
- Muestre su trabajo: scratchpads para computación intermedia con modelos de idiomas
- Resolver problemas de palabras matemáticas con el proceso y la retroalimentación basada en resultados
- Coderl: Dominar la generación de códigos a través de modelos previos a la aparición y aprendizaje de refuerzo profundo
- T-SCIQ: Enseñanza de razonamiento multimodal de la cadena de pensamiento a través de señales de modelos de idiomas grandes para la respuesta de las preguntas de ciencias
- Aprendizaje de ediciones de código de mejor mejora del rendimiento
- Cadena de código: razonamiento con un emulador de código acuático de modelos de idioma
Análisis de principios
- La cadena de pensamiento faculta a los transformadores para resolver problemas inherentemente en serie
- Hacia la comprensión de la provisión de la cadena de pensamiento: un estudio empírico de lo que importa
- Texto y patrones: para una cadena de pensamiento efectiva, se necesitan dos en tango
- Hacia revelar el misterio detrás de la cadena de pensamiento: una perspectiva teóricamente
- Los modelos de lenguaje grande pueden distraerse fácilmente por un contexto irrelevante
- Razonamiento de la cadena de pensamiento sin solicitar
- Inductivo o deductivo? Repensar las habilidades de razonamiento fundamental de los LLM
- Más allá de la cadena de pensamiento: una encuesta de paradigmas de la cadena de X para LLMS
- A cot o no a la cuna? La cadena de pensamiento ayuda principalmente en matemáticas y razonamiento simbólico
- ¿Por qué pensar paso a paso? El razonamiento surge de la localidad de la experiencia
- Consistencia interna y autocuración en modelos de idiomas grandes: una encuesta
- Cabeza de iteración: un estudio mecanicista de la cadena de pensamiento
- El impacto de la longitud del paso de razonamiento en los modelos de idiomas grandes
- ¿Los modelos de idiomas grandes realizan un razonamiento latente de múltiples saltos sin explotar accesos directos?
- Cadena de pensamiento comprimida: razonamiento eficiente a través de representaciones densas
- ¿Los LLM realmente piensan paso a paso en el razonamiento implícito?
Destilación de cuna modelo pequeño
- Especializar modelos de idiomas más pequeños para un razonamiento de varios pasos
- Enseñar modelos de idiomas pequeños a la razón
- Los modelos de idiomas grandes son maestros de razonamiento
- Destilar capacidades de razonamiento en modelos de idiomas más pequeños
- La colección COT: Mejora de los modelos de lingües de disparo cero y de pocos disparos a través de la cadena de pensamiento.
- Destilar el sistema 2 en el sistema 1
Construcción automática/selección de muestras de cuna
- Autocot: la cadena automática de indicaciones de pensamiento en modelos de idiomas grandes
- Información activa con la cadena de pensamiento para modelos de idiomas grandes
- Solicitante basado en la complejidad para el razonamiento de varios pasos
Aprendizaje de la capacidad de la cuna
- Los modelos de idiomas grandes pueden hacer auto
- Capacitación de la cadena de pensamiento a través de la inferencia latente-variable
- STORM STAR: los modelos de idiomas pueden enseñarse a pensar antes de hablar
- Estrella: razonador autodidacta de arranque razonamiento con razonamiento
- V-estrella: Verificadores de entrenamiento para razonadores autodidacentes
- Piense antes de hablar: entrenamiento de modelos de idiomas con tokens de pausa
- Informe técnico de diálogos y revisiones sintéticas autodirigidos
Otros
- Olagpt Empodering LLMS con habilidades de resolución de problemas como humanos
- Desafiando las tareas de Big Bench y si la cadena de pensamiento puede resolverlas
- Los modelos de idiomas grandes son mejores razonadores con autoverificación
- ThoughtingOurce un centro central para datos de razonamiento del modelo de lenguaje grande
- Dos fallas de autoconsistencia en el razonamiento de varios pasos de LLMS

RLHF

Profundo
- Enseñar modelos de idiomas para apoyar las respuestas con citas verificadas
- Sparrow, Mejora de la alineación de los agentes de diálogo a través de los juicios humanos de Targetd
- El muestreo de rechazo estadístico mejora la optimización de preferencias
- Autodenrayamiento reforzado (descanso) para modelado de idiomas
- SLIC-HF: calibración de probabilidad de secuencia con retroalimentación humana
- La probabilidad de la secuencia de calibración mejora la generación de idiomas condicionales
- Diseño de recompensa con modelos de idiomas
- Respuesta final RL Resolución de problemas de palabras matemáticas con procesos y comentarios basados en resultados
- Resolver problemas de palabras matemáticas con la retroalimentación basada en el proceso y los resultados
- Más allá de los datos humanos: escala autotrenaje para la resolución de problemas con modelos de lenguaje
- Bono: Alineando LLM con la destilación mejor de N
- RL en escalas de datos sintéticos incorrectos La eficiencia del razonamiento matemático LLM por ocho veces
- Verificadores generativos: el modelado de recompensas como predicción de la siguiente token
- Entrenamiento de modelos de idiomas para autocorregir a través del aprendizaje de refuerzo
opadai
- PPO: algoritmos de optimización de políticas proximales
- Aprendizaje de refuerzo profundo por preferencia humana
- Modelos lingüísticos de ajuste de las preferencias humanas
- Aprender a resumir de la retroalimentación humana
- InstructGPT: Modelos de lenguaje de capacitación para seguir las instrucciones con comentarios humanos
- Leyes de escala para el modelo de recompensa sobre la optimización
- Generalización de débil a fuerte: provocar capacidades fuertes con una supervisión débil
- PRM: Verifiquemos paso a paso
- VERIFICADORES DE CONSTRUCCIÓN para resolver problemas de palabras matemáticas [PRM PREDEPENCIA DEL PRM]
- Blog de Super Alineación de Operai
- LLM Critics Help Catch LLM Bugs
- Los juegos de prover-verificador mejoran la legibilidad de las salidas de LLM
- Recompensas basadas en reglas para la seguridad del modelo de idioma
- Modelos de autocritaje para ayudar a los evaluadores humanos
Antrópico
- Un asistente de idioma general como laboratorio para alineadores
- Medir el progreso en supervisión escalable o modelos de idiomas grandes
- Modelos de lenguaje de equipo rojo para reducir los métodos de daños, los comportamientos de escala y las lecciones aprendidas
- Capacitar a un asistente útil e inofensivo con refuerzo aprendiendo de comentarios humanos
- Inofensiva de IA constitucional de la retroalimentación de IA
- Modelos lingüísticos previos al entrenamiento con preferencias humanas
- La capacidad de la autocorrección moral en modelos de idiomas grandes
- Agentes durmientes: entrenamiento de LLM engañosos que persisten a través del entrenamiento de seguridad
Allenai, RL4LM: es el aprendizaje de refuerzo (no) para los puntos de referencia de procesamiento del lenguaje natural
Plan de mejora
- RRHF: respuestas de rango para alinear los modelos de lenguaje con la retroalimentación humana sin lágrimas
- La cadena de retrospectiva alinea los modelos de lenguaje con comentarios
- Alpacafarm: un marco de simulación para métodos que aprenden de la retroalimentación humana
- Raft: recompensa clasificada Finetuning para la alineación del modelo de base generativa
- RLAIF: Escala de refuerzo de refuerzo de la retroalimentación humana con comentarios de IA
- Capacitar modelos lingüísticos alineados socialmente en la sociedad humana simulada
- Rain: sus modelos de idiomas pueden alinearse sin finetas
- Juez generativo para evaluar la alineación
- Mirar a través de las preferencias: desentrañar la adquisición de retroalimentación para alinear modelos de idiomas grandes
- Salmón: autoalineación con modelos de recompensa de seguimiento de principios
- Desaprendizaje del modelo de lenguaje grande
- Optimización de preferencias adversas
- Optimización de clasificación de preferencias para la alineación humana
- Un largo camino a seguir: investigando correlaciones de longitud en RLHF
- Permitir que los modelos de idiomas aprendan implícitamente la superación personal de los datos
- Los conjuntos de modelos de recompensa ayudan a mitigar la sobrettimización
- Aprender una ventaja óptima de las preferencias y confundirlo con recompensa
- Ultrageledback: impulso modelos de idiomas con retroalimentación de alta calidad
- Motivo: motivación intrínseca de la retroalimentación de inteligencia artificial
- Estabilización de RLHF a través del modelo de ventaja y ensayo selectivo
- Pastor: un crítico para la generación de modelos de idiomas
- Aprender a generar mejor que tu LLM
- La retroalimentación humana de grano fino ofrece mejores recompensas para la capacitación del modelo de idioma
- Autoalineación de los modelos lingüísticos impulsados por los principios desde cero con una supervisión humana mínima
- Optimización de preferencias directas: su modelo de idioma es secretamente un modelo de recompensa
- Hir la sabiduría de la retrospectiva hace que los modelos de idiomas sean mejores seguidores de instrucciones
- Alineador: Lograr una alineación eficiente a través de la corrección débil a fuerte
- Un enfoque minimaximalista para el aprendizaje de refuerzo de la retroalimentación humana
- Panda: adaptación de preferencia para mejorar la capacidad específica del dominio de los LLM
- Búsqueda de débil a fuerte: alinear modelos de idiomas grandes mediante la búsqueda de modelos de idiomas pequeños
- Extrapolación débil a la alineación de expedición
- ¿DPO es superior a PPO para la alineación de LLM? Un estudio completo
- Optimización de preferencias directas a nivel de token
- SIMPO: optimización simple de preferencias con una recompensa sin referencia
- Autodetect: hacia un marco unificado para la detección de debilidad automatizada en modelos de idiomas grandes
- Modelos de lenguaje meta-recompensa: alineación de administración automática con LLM-as-a-Meta-Judge
- HelpSteer: conjunto de datos de ayuda múltiple para Steerlm
- Introspección recursiva: enseñanza de agentes del modelo de idioma cómo hacer auto
- Mejora de las habilidades de razonamiento de varios pasos de los modelos de lenguaje a través de la optimización directa de la función Q
- Deepseekmath: empujando los límites del razonamiento matemático en modelos de lenguaje abierto
- Glore: cuándo, dónde y cómo mejorar el razonamiento de LLM a través de refinamientos globales y locales
- Reft: razonamiento con ajuste fino reforzado
- SCPO: optimización de preferencias de autoconsistencia
RL Exploración
- Comprender los efectos de RLHF en la generalización y diversidad de LLM
- Un largo camino a seguir: investigando correlaciones de longitud en RLHF
- El impacto de goteo de la consistencia de la recompensa (in) en RLHF
- Problemas abiertos y limitaciones fundamentales del aprendizaje de refuerzo de la retroalimentación humana
- La retroalimentación humana no es estándar de oro
- Modelos de lenguaje grande posterior al entrenamiento contrastante en el plan de estudios de datos
- Los modelos de idiomas resisten la alineación

Post Train (con Cot, RL)

Escala de inferencia
- Un análisis empírico de la inferencia óptima de cómputo para la resolución de problemas con modelos de idiomas
- ¿Más llamadas LM son todo lo que necesitas? Hacia las propiedades de escala de los sistemas AI compuestos
- Lenguaje grande Monos: Calculación de inferencia de escala con muestreo repetido
- Escalar el tiempo de cálculo de tiempo de prueba LLM de manera óptima puede ser más efectivo que los parámetros del modelo de escala
- P*: Mejora del razonamiento de varios pasos para LLM con planificación deliberativa
- La planificación en lenguaje natural mejora la búsqueda de la generación de código
- REST-MCTS ∗: LLM Autoden-entrenamiento a través de la búsqueda de árbol guiado de recompensa de proceso
- La búsqueda de árboles de Alphazero puede guiar la decodificación y capacitación del modelo de idioma grande
- Más pequeño, más débil, pero mejor: entrenamiento de razonadores LLM a través de muestreo óptimo de cómputo
- La sorprendente efectividad de la capacitación en el tiempo de prueba para el razonamiento abstracto
- Escala de inferencia para la generación aumentada de recuperación de contexto largo
- Hacia la superación personal de LLM a través de la imaginación, la búsqueda y la criticación
cuna de pensamiento lento
- Viaje de replicación de O1: un informe de progreso estratégico - Parte 1
- Marco-O1: Hacia modelos de razonamiento abierto para soluciones abiertas
- Un estudio comparativo sobre patrones de razonamiento del modelo O1 de OpenAi
- IMITAR, Explorar y hacer mejor a sí mismo: un informe de reproducción sobre sistemas de razonamiento de pensamiento lento
- Dualformer: pensamiento rápido y lento controlable aprendiendo con trazas de razonamiento aleatorias
- Entrenamiento de modelos de idiomas grandes para razonar en un espacio latente continuo
- Más allá de un ∗: mejor planificación con transformadores a través de Bootstrapping de dinámica de búsqueda
- Coder O1: una replicación O1 para la codificación
- Escala de búsqueda y aprendizaje: una hoja de ruta para reproducir O1 desde la perspectiva de aprendizaje de refuerzo
- Sky-T1: Entrena tu propio modelo de vista previa O1 dentro de $ 450
- Hacia el Razonamiento del Sistema 2 en LLM: Aprender a pensar con la meta cadena de pensamiento

Instrucción Autorización y alineación (Instruction_Tunning)

Solución clásica
- Flan: los modelos de idiomas finetos son alumnos de cero disparos
- Flan-T5: modelos de lenguaje de instrucción de escalado
- Ext5: Hacia una escala extrema de múltiples tareas para el aprendizaje de transferencia
- Instructo-GPT: Modelos de lenguaje de capacitación para seguir las instrucciones con comentarios humanos
- T0: la capacitación impulsada por múltiples tareas permite la generalización de tareas de disparo cero
- Instrucciones naturales: Generalización de tareas cruzadas a través de instrucciones de crowdsourcing de lenguaje natural
- TK-Instructo: Súper NaturalInstrucciones: Generalización a través de instrucciones declarativas en más de 1600 tareas PNLP
- ZeroPrompt: Escala previa a la intemperie a 1,000 tareas mejora la generalización de disparo cero
- Instrucciones antinaturales: ajuste de modelos de lenguaje con (casi) sin trabajo humano
- Instruir la evaluación holística de modelos de lenguaje grande sintonizados con instrucciones
Ley de escala de datos SFT
- Lima: menos es más para la alineación
- Tal vez solo se necesitan datos de 0.5%: una exploración preliminar de bajo ajuste de instrucciones de datos de entrenamiento
- Alpagasus: capacitación de una mejor alpaca con menos datos
- Instructiongpt-4: un paradigma de 200 instrucción para ajustar el minigpt-4
- Minería de instrucciones: selección de datos de instrucciones de alta calidad para modelos de idiomas grandes
- Ajuste de instrucciones visuales con flamenco educado
- Explorando el impacto de la escala de datos de instrucciones en modelos de idiomas grandes: un estudio empírico en casos de uso del mundo real
- Relación de escala en el aprendizaje del razonamiento matemático con modelos de idiomas grandes
- Cuando la escala se encuentra con LLM Finetuning: el efecto de los datos, el modelo y el método de fina
Nuevo esquema de alineación/ajuste
- Wizardlm: Empoderar modelos de idiomas grandes para seguir instrucciones complejas
- Convertirse en autoinstructo: introducir criterios de detención temprana para un ajuste mínimo de instrucciones
- Autoalineación con instrucción de instrucciones
- La mezcla de expertos cumple con el ajuste de instrucciones: una combinación ganadora para modelos de idiomas grandes
- Cabra: Llama ajustado supera a GPT-4 en tareas aritméticas
- ARD2Model: Generación de modelos desplegables a partir de instrucciones de lenguaje natural
- OpinionGPT: Modelado de sesgos explícitos en LLMS ajustados a las instrucciones
- Mejora de la negociación del modelo de lenguaje con el aprendizaje de auto-juego y en contexto de la retroalimentación de la IA
- Generalización sistemática similar a un humano a través de una red neuronal de meta-learning
- Magicoder: el código fuente es todo lo que necesitas
- Más allá de los datos humanos: escala autotrenaje para la resolución de problemas con modelos de lenguaje
- Ajuste de instrucciones de representación generativa
- INSCL: un paradigma de aprendizaje continuo eficiente en datos para ajustar modelos de idiomas grandes con instrucciones
- La jerarquía de instrucciones: capacitación LLMS para priorizar las instrucciones privilegiadas
- Magpie: síntesis de datos de alineación desde cero mediante la provisión de LLM alineados con nada
Generación de datos de instrucciones
- APE: los modelos de lenguaje grande son ingenieros de inmediato a nivel humano
- Autoestructo: Modelo de lenguaje de alineación con instrucciones autogeneradas
- IPROMPT: Explicando patrones de datos en lenguaje natural a través de una autoprompción interpretable
- Aprendizaje invertido: ¡Adivina la instrucción! El aprendizaje volcado hace que los modelos de idiomas sean más fuertes de los alumnos de disparo cero
- Solicitud de pocos disparos guiadas por equidad para modelos de idiomas grandes
- Inducción de instrucciones: de pocos ejemplos a descripciones de tareas del lenguaje natural.
- Auto-Qa sin supervisión de conocimiento guiado.
- Auto-supervisión GPT para un mejor anotador de datos
- La recopilación de flan diseñando datos y métodos
- Los modelos generativos autoconsumantes se vuelven locos
- InstructEval: Evaluación sistemática de los métodos de selección de instrucciones
- Sobrescribir el sesgo previo a la aparición con datos de sintonización
- Mejora de los incrustaciones de texto con modelos de idiomas grandes
- Magpie: síntesis de datos de alineación desde cero mediante la provisión de LLM alineados con nada
- Escala de creación de datos sintéticos con 1,000,000,000 de personas
- Desatar la capacidad de razonamiento de LLM a través de la síntesis de preguntas escalables desde cero
- Una encuesta sobre síntesis de datos y aumento para modelos de idiomas grandes
- AgentInstruct: hacia la enseñanza generativa con flujos de agente
- Presentación de los defectos: explorar imperfecciones en datos sintéticos y estrategias de mitigación para modelos de idiomas grandes
Cómo reducir la pérdida de capacidad general
- Cómo la capacidad en los modelos de idiomas grandes se ve afectada por la composición supervisada de datos de ajuste fino
- LLM de dos etapas, ajuste fino con menos especialización y más generalización
Experiencia de ajuste/informe experimental
- Belle: Explorando el impacto de la escala de datos de instrucciones en modelos de idiomas grandes: un estudio empírico en casos de uso del mundo real
- Baize: Baize: un modelo de chat de código abierto con ajuste de los parámetros eficientes en los datos de auto-chat
- Un estudio comparativo entre el ajuste fino de parámetro completo y basado en Lora en datos de instrucciones chinas para LM grande
- Explorar la capacidad de ChatGPT para clasificar el contenido: un estudio preliminar sobre la consistencia con las preferencias humanas
- Hacia una mejor instrucción siguiendo modelos de idiomas para chino: investigar el impacto de los datos de capacitación y la evaluación
- Fait Tuning LLMS para empresas: pautas y recomendaciones prácticas
Otros
- Generalización cruzada a través de la multitarea
- Generalización de la tarea cruzada a través de instrucciones de crowdsourcing de lenguaje natural
- Unifiedskg: conocimiento estructurado unificador y múltiple con modelos de lenguaje de texto a texto
- PromitSource: un entorno de desarrollo integrado y un repositorio de indicaciones de lenguaje natural
- Rolellm: evaluación comparativa, obtención y mejora de las habilidades de juego de roles de modelos de idiomas grandes

Agente LLM deja que la herramienta de uso del modelo (LLM_AGENT)

Agente AI: encuestando los horizontes de la interacción multimodal
Una encuesta sobre agentes autónomos basados en modelos de idiomas grandes
Agentes personales de LLM: información y encuestas sobre la capacidad, la eficiencia y la seguridad
Solución general basada en propt
- React: sinergizando razonamiento y actuación en modelos de idiomas
- Autoestimbre: medir y reducir la brecha de composición en los modelos de idiomas
- MRKL SystemsA Modular y arquitectura neuroimbólica que combina grandes modelos de idiomas, fuentes de conocimiento externas y razonamiento discreto
- PAL: modelos de idiomas asistidos por programas
- Arte: razonamiento automático de varios pasos y uso de herramientas para modelos de idiomas grandes
- REWOO: Razonamiento de desacoplamiento de observaciones para modelos de lenguaje aumentado eficientes
- Recuperación de intercalación con razonamiento de la cadena de pensamiento para preguntas de múltiples pasos que intensifican el conocimiento
- Camaleón: razonamiento de composición de plug-and-play con modelos de idiomas grandes
- Razonamiento fiel de la cadena de pensamiento
- Reflexión: Agentes del lenguaje con aprendizaje de refuerzo verbal
- Verificar y editar: un marco de cadena de pensamiento mejorado por el conocimiento
- RESTGPT: Conectando modelos de idiomas grandes con API RESTFULE del mundo real
- CHATCOT: razonamiento de la cadena de pensamiento de la herramienta en los modelos de idiomas grandes basados en chat
- InstructTods: modelos de idiomas grandes para sistemas de diálogo orientados a tareas de extremo a extremo
- TPTU: Planificación de tareas y uso de herramientas de agentes de IA basados en modelos de idiomas grandes
- ControlLM: aumente los modelos de lenguaje con herramientas buscando en gráficos
- Reflexión: un agente autónomo con memoria dinámica y autorreflexión
- Autoagentes: un marco para la generación de agentes automáticos
- GITAGENT: facilitando el agente autónomo con GitHub por extensión de la herramienta
- Preact: Predictar el futuro en React mejora la capacidad de planificación del agente
- TOOLLLM: Facilitar modelos de idiomas grandes para dominar 16000+ API del mundo real-Anytool: agentes jerárquicos autorreflexivos para llamadas API a gran escala
- AIOS: sistema operativo de agente LLM
- LLM Compilador Un compilador LLM para la función paralela de llamadas
- Reiniciar: reescritura de invocación de herramientas para recuperación de herramientas de disparo cero
Solución general basada en ajuste fino
- Talm: modelos de idiomas aumentados de herramientas
- Formador de herramientas: los modelos de idiomas pueden enseñarse a usar herramientas
- Aprendizaje de herramientas con modelos de base
- Fabricante de herramientas: modelos de idiomas grandes como fabricante de herramientas
- TaskMatrix.ai: tareas completadas conectando modelos de base con millones de API
- Agente de agente: habilitando las aabilidades de agentes generalizados para LLMS
- SwiftSage: un agente generativo con un pensamiento rápido y lento para tareas interactivas complejas
- FireAct: hacia el agente del idioma ajustado
- Pangu-agente: un agente generalista con fines de ajuste con razonamiento estructurado
- REST se encuentra con reaccionar: superación personal para un agente de razonamiento de múltiples pasos LLM
- Uso de la herramienta eficiente con el razonamiento de la cadena de abstracción
- Agente-Flan: Diseño de datos y métodos de ajuste efectivo de agentes para modelos de idiomas grandes
- Agentehana: Diseñar datos unificados y tuberías de capacitación para un aprendizaje efectivo de agentes
- Agente Lumos: capacitación unificada y modular para agentes de idioma abierto
- Toolgen: recuperación de herramientas unificadas y llamadas a través de la generación
Llamar al esquema de modelo
- HuggingGpt: Resolver tareas de IA con ChatGPT y sus amigos en Huggingface
- Gorila: modelo de lenguaje grande conectado con API masivas
- Openagi: cuando LLM conoce a expertos en dominios
Campo vertical
- Análisis de datos
  - DS-Agent: ciencia de datos automatizada mediante el empoderamiento de modelos de idiomas grandes con razonamiento basado en casos
  - InsightLens: Descubrir y explorar ideas de contextos conversacionales en análisis de datos con modelos de gran idioma
  - Data-Copilot: puente de miles de millones de datos y humanos con flujo de trabajo autónomo
  - Demostración de InsightPilot: un sistema de exploración de datos automatizado con poder LLM
  - TaskWeaver: un marco de agente de código de código
  - Ciencias sociales automatizadas: modelos de idiomas como científicos y asignaturas
  - Data Interpreter: un agente de LLM para la ciencia de datos
- finanzas
  - Weaverbird: Empoderar la toma de decisiones financieras con un modelo de lenguaje grande, base de conocimiento y motor de búsqueda
  - Dingpt: modelos financieros de idiomas financieros de código abierto
  - Finmem: un agente comercial LLM mejorado por el rendimiento con memoria en capas y diseño de personajes
  - Alfafin: análisis financiero de evaluación comparativa utilizando el marco de la cadena de acciones mejorado por la búsqueda
  - Un agente fundamental multimodal para el comercio financiero: herramientas acuáticas, diversificadas y generalistas
  - ¿Pueden los modelos de idiomas grandes vencer a Wall Street? Revelando el potencial de IA en la selección de existencias
  - Mejora de la detección de anomalías en los mercados financieros con un marco múltiple de agente basado en LLM
  - TradingGPT: sistema de agentes múltiples con memoria en capas y caracteres distintos para un rendimiento comercial financiero mejorado
  - Finrobot: una plataforma de agente de IA de código abierto para aplicaciones financieras que utilizan modelos de idiomas grandes
  - LLMFactor: Extracción de factores rentables a través de indicaciones para la predicción de movimiento de acciones explicables
  - Alpha-GPT: Minería alfa interactiva Human-AI para inversión cuantitativa
  - Avance de la detección de anomalías: codificación de datos financieros no semánticos con LLMS
  - TradExpert: revolucionando el comercio con la mezcla de LLM de expertos
  - FinVision: un marco de múltiples agentes para la predicción del mercado de valores
  - AI en análisis de inversión: LLMS para calificaciones de acciones de capital
  - AAPM: modelos de precios de activos basados en agentes de modelos de lenguaje grande
- Biomedicina
  - GENEGPT: Aumento de modelos de idiomas grandes con herramientas de dominio para mejorar el acceso a la información biomédica
  - Chemcrow aumentando modelos de idiomas grandes con herramientas de química
  - Generación de explicaciones en la pregunta médica-respuesta por la inferencia de maximización de expectativas sobre la evidencia
  - Hospital de agentes: un simulacro de hospital con agentes médicos evolucionables
  - Integrar el conocimiento de la química en modelos de idiomas grandes a través de ingeniería rápida
- agente web/móvil
  - Autowebglm: bootstrap y reforzan un agente de navegación web basado en modelos de idiomas grandes
  - Un webagent del mundo real con la planificación, la comprensión del contexto largo y la síntesis de programas
  - Mind2Web: Hacia un agente generalista para la web
  - MINIWOB ++ Aprendizaje de refuerzo en interfaces web utilizando exploración guiada por flujo de trabajo
  - Webarena: un entorno web realista que ofrece agentes autónomos
  - Autocrawler: un agente web de comprensión progresiva para la generación de rastreadores web
  - Weblinx: navegación del sitio web del mundo real con diálogo múltiple
  - WebVoyager: construyendo un agente web de extremo a extremo con grandes modelos multimodales
  - Cogagent: un modelo de lenguaje visual para agentes de la GUI
  - Mobile-Agent-V2: Asistente de operación del dispositivo móvil con navegación efectiva a través de la colaboración de múltiples agentes
  - Webcanvas: agentes web de evaluación comparativa en entornos en línea
  - The Dawn of GUI Agent: un estudio de caso preliminar con Claude 3.5 Uso de la computadora
- ingeniero de software
- Agentes en ingeniería de software: encuesta, paisaje y visión
- ChatDev: Agentes comunicativos para el desarrollo de software
- otro
  - Laboratorio de agentes: utilizando agentes de LLM como asistentes de investigación
  - ResearchAgent: generación de ideas de investigación iterativa sobre literatura científica con modelos de idiomas grandes
  - Webshop: hacia la interacción web escalable del mundo real con agentes de lenguaje fundamentados
  - Toolkengpt: Aumento de modelos de lenguaje congelado con herramientas masivas a través de insertos de herramientas
  - Pointllm: Empoderar modelos de idiomas grandes para comprender las nubes de puntos
  - Respuesta de preguntas legales de forma larga interpretable con modelos de idiomas grandes augsados de recuperación
  - Carexpert: Aprovechando modelos de idiomas grandes para la respuesta de preguntas de conversación en el automóvil
  - Sciagents: Automatización del descubrimiento científico a través del razonamiento de gráficos inteligentes de múltiples agentes
Evaluar
- Evaluating Verifiability in Generative Search Engines
- Auto-GPT for Online Decision Making: Benchmarks and Additional Opinions
- API-Bank: A Benchmark for Tool-Augmented LLMs
- ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs
- Automatic Evaluation of Attribution by Large Language Models
- Benchmarking Large Language Models in Retrieval-Augmented Generation
- ARES: An Automated Evaluation Framework for Retrieval-Augmented Generation Systems
- Agent-as-a-Judge: Evaluate Agents with Agents
MultiAgent
- GENERATIVE AGENTS
- LET MODELS SPEAK CIPHERS: MULTIAGENT DEBATE THROUGH EMBEDDINGS
- War and Peace (WarAgent): Large Language Model-based Multi-Agent Simulation of World Wars
- Small LLMs Are Weak Tool Learners: A Multi-LLM Agent
- Merge, Ensemble, and Cooperate! A Survey on Collaborative Strategies in the Era of Large Language Models
- Generative Agents: Interactive Simulacra of Human Behavior
- AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors in Agents
- System-1.x: Learning to Balance Fast and Slow Planning with Language Models
- Agents Thinking Fast and Slow:A Talker-Reasoner Architecture
- Generative Agent Simulations of 1,000 People
- Advanced Reasoning and Learning for Autonomous AI Agents
- 多智能体系统
  - Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence
  - MULTI-AGENT COLLABORATION: HARNESSING THE POWER OF INTELLIGENT LLM AGENTS
  - Magentic-One: A Generalist Multi-Agent System for Solving Complex Tasks
任务型智能体协作
- METAAGENTS: SIMULATING INTERACTIONS OF HUMAN BEHAVIORS FOR LLM-BASED TASK-ORIENTED COORDINATION VIA COLLABORATIVE
- CAMEL: Communicative Agents for "Mind" Exploration of Large Scale Language Model Society
- Exploring Large Language Models for Communication Games: An Empirical Study on Werewolf
- Communicative Agents for Software Development
- MedAgents: Large Language Models as Collaborators for Zero-shot Medical Reasoning
- METAGPT: META PROGRAMMING FOR A MULTI-AGENT COLLABORATIVE FRAMEWORK
智能体路由
- One Agent To Rule Them All: Towards Multi-agent Conversational AI
- A Multi-Agent Conversational Recommender System
基座模型路由&Ensemble
- Large Language Model Routing with Benchmark Datasets
- LLM-BL ENDER: Ensembling Large Language Models with Pairwise Ranking and Generative Fusion
- RouteLLM: Learning to Route LLMs with Preference Data
- More Agents Is All You Need
- Routing to the Expert: Efficient Reward-guided Ensemble of Large Language Models
自主学习和探索进化
- AppAgent: Multimodal Agents as Smartphone Users
- Investigate-Consolidate-Exploit: A General Strategy for Inter-Task Agent Self-Evolution
- LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error
- Empowering Large Language Model Agents through Action Learning
- Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents
- OS-COPILOT: TOWARDS GENERALIST COMPUTER AGENTS WITH SELF-IMPROVEMENT
- LLAMA RIDER: SPURRING LARGE LANGUAGE MODELS TO EXPLORE THE OPEN WORLD
- PAST AS A GUIDE: LEVERAGING RETROSPECTIVE LEARNING FOR PYTHON CODE COMPLETION
- AutoGuide: Automated Generation and Selection of State-Aware Guidelines for Large Language Model Agents
- A Survey on Self-Evolution of Large Language Models
- ExpeL: LLM Agents Are Experiential Learners
- ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy
- PROACTIVE AGENT: SHIFTING LLM AGENTS FROM REACTIVE RESPONSES TO ACTIVE ASSISTANCE
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning
otro
- LLM+P: Empowering Large Language Models with Optimal Planning Proficiency
- Inference with Reference: Lossless Acceleration of Large Language Models
- RecallM: An Architecture for Temporal Context Understanding and Question Answering
- LLaMA Rider: Spurring Large Language Models to Explore the Open World
- LLMs Can't Plan, But Can Help Planning in LLM-Modulo Frameworks

TRAPO

经典论文
- WebGPT：Browser-assisted question-answering with human feedback
- WebGLM: Towards An Efficient Web-Enhanced Question Answering System with Human Preferences
- WebCPM: Interactive Web Search for Chinese Long-form Question Answering
- REPLUG: Retrieval-Augmented Black-Box Language Models
- RETA-LLM: A Retrieval-Augmented Large Language Model Toolkit
- Atlas: Few-shot Learning with Retrieval Augmented Language Models
- RRAML: Reinforced Retrieval Augmented Machine Learning
- FRESHLLMS: REFRESHING LARGE LANGUAGE MODELS WITH SEARCH ENGINE AUGMENTATION
微调
- RLCF：Aligning the Capabilities of Large Language Models with the Context of Information Retrieval via Contrastive Feedback
- RA-DIT: RETRIEVAL-AUGMENTED DUAL INSTRUCTION TUNING
- CHAIN-OF-NOTE: ENHANCING ROBUSTNESS IN RETRIEVAL-AUGMENTED LANGUAGE MODELS
- RAFT: Adapting Language Model to Domain Specific RAG
- Rich Knowledge Sources Bring Complex Knowledge Conflicts: Recalibrating Models to Reflect Conflicting Evidence
其他论文
- Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation
- PDFTriage: Question Answering over Long, Structured Documents
- Walking Down the Memory Maze: Beyond Context Limit through Interactive Reading
- Active Retrieval Augmented Generation
- kNN-LM Does Not Improve Open-ended Text Generation
- Can Retriever-Augmented Language Models Reason? The Blame Game Between the Retriever and the Language Model
- DORIS-MAE: Scientific Document Retrieval using Multi-level Aspect-based Queries
- Factuality Enhanced Language Models for Open-Ended Text Generation
- KwaiAgents: Generalized Information-seeking Agent System with Large Language Models
- Complex Claim Verification with Evidence Retrieved in the Wild
- Retrieval-Augmented Generation for Large Language Models: A Survey
- ChatQA: Building GPT-4 Level Conversational QA Models
- RAG vs Fine-tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture
- Benchmarking Large Language Models in Retrieval-Augmented Generation
- T-RAG: Lessons from the LLM Trenches
- ARAGOG: Advanced RAG Output Grading
- ActiveRAG: Revealing the Treasures of Knowledge via Active Learning
- OpenResearcher: Unleashing AI for Accelerated Scientific Research
- Contextual.ai-RAG2.0
- Mindful-RAG: A Study of Points of Failure in Retrieval Augmented Generation
- Memory3 : Language Modeling with Explicit Memory
优化检索
- IAG: Induction-Augmented Generation Framework for Answering Reasoning Questions
- HyDE：Precise Zero-Shot Dense Retrieval without Relevance Labels
- PROMPTAGATOR : FEW-SHOT DENSE RETRIEVAL FROM 8 EXAMPLES
- Query Rewriting for Retrieval-Augmented Large Language Models
- Query2doc: Query Expansion with Large Language Models
- Query Expansion by Prompting Large Language Models
- Anthropic Contextual Retrieval
- Multi-Level Querying using A Knowledge Pyramid
- A Survey of Query Optimization in Large Language Models
Categoría
- A Setwise Approach for Effective and Highly Efficient Zero-shot Ranking with Large Language Models
- RankVicuna: Zero-Shot Listwise Document Reranking with Open-Source Large Language Models
- Improving Passage Retrieval with Zero-Shot Question Generation
- Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting
- RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs
- Ranking Manipulation for Conversational Search Engines
- Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents
- Opensource Large Language Models are Strong Zero-shot Query Likelihood Models for Document Ranking
- T2Ranking: A large-scale Chinese Benchmark for Passage Ranking
- Learning to Filter Context for Retrieval-Augmented Generation
传统搜索方案
- ASK THE RIGHT QUESTIONS:ACTIVE QUESTION REFORMULATION WITH REINFORCEMENT LEARNING
- Query Expansion Techniques for Information Retrieval a Survey
- Learning to Rewrite Queries
- Managing Diversity in Airbnb Search
新向量模型用于Recall和Ranking
- Augmented Embeddings for Custom Retrievals
- BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation
- 网易为RAG设计的BCE Embedding技术报告
- BGE Landmark Embedding: A Chunking-Free Embedding Method For Retrieval Augmented Long-Context Large Language Models
- D2LLM: Decomposed and Distilled Large Language Models for Semantic Search
- Piccolo2: General Text Embedding with Multi-task Hybrid Loss Training
优化推理结果
- Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting
动态RAG（When to Search & Search Plan）
- SELF-RAG: LEARNING TO RETRIEVE, GENERATE, AND CRITIQUE THROUGH SELF-REFLECTION
- Self-Knowledge Guided Retrieval Augmentation for Large Language Models
- Self-DC: When to retrieve and When to generate Self Divide-and-Conquer for Compositional Unknown Questions
- Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs
- Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity
- REAPER: Reasoning based Retrieval Planning for Complex RAG Systems
- When to Retrieve: Teaching LLMs to Utilize Information Retrieval Effectively
- PlanRAG: A Plan-then-Retrieval Augmented Generation for Generative Large Language Models as Decision Makers
- ONEGEN: EFFICIENT ONE-PASS UNIFIED GENERATION AND RETRIEVAL FOR LLMS
- Probing-RAG: Self-Probing to Guide Language Models in Selective Document Retrieval
Graph RAG
- GRAPH Retrieval-Augmented Generation: A Survey
- From Local to Global: A Graph RAG Approach to Query-Focused Summarization
- GRAG: Graph Retrieval-Augmented Generation
- GNN-RAG: Graph Neural Retrieval for Large Language Model Reasoning
- THINK-ON-GRAPH: DEEP AND RESPONSIBLE REASONING OF LARGE LANGUAGE MODEL ON KNOWLEDGE GRAPH
- LightRAG: Simple and Fast Retrieval-Augmented Generation
- THINK-ON-GRAPH: DEEP AND RESPONSIBLE REASON- ING OF LARGE LANGUAGE MODEL ON KNOWLEDGE GRAPH
- StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization
Multistep RAG
- SYNERGISTIC INTERPLAY BETWEEN SEARCH AND LARGE LANGUAGE MODELS FOR INFORMATION RETRIEVAL
- Interleaving Retrieval with Chain-of-Thought Reasoning for Knowledge-Intensive Multi-Step Questions
- Enhancing Retrieval-Augmented Large Language Models with Iterative Retrieval-Generation Synergy
- RAT: Retrieval Augmented Thoughts Elicit Context-Aware Reasoning in Long-Horizon Generation
- IM-RAG: Multi-Round Retrieval-Augmented Generation Through Learning Inner Monologues
- Demonstrate-Search-Predict: Composing retrieval and language models for knowledge-intensive NLP
- Search-in-the-Chain: Towards Accurate, Credible and Traceable Large Language Models for Knowledge-intensive Tasks
- MindSearch 思·索: Mimicking Human Minds Elicits Deep AI Searcher
- RQ-RAG: LEARNING TO REFINE QUERIES FOR RETRIEVAL AUGMENTED GENERATION
- AutoPRM: Automating Procedural Supervision for Multi-Step Reasoning via Controllable Question Decomposition
Timeline RAG
- Unfolding the Headline: Iterative Self-Questioning for News Retrieval and Timeline Summarization

Other Prompt Engineer(prompt_engineer)

Calibrate Before Use: Improving Few-Shot Performance of Language Models
In-Context Instruction Learning
LEARNING PERFORMANCE-IMPROVING CODE EDITS
Boosting Theory-of-Mind Performance in Large Language Models via Prompting
Generated Knowledge Prompting for Commonsense Reasoning
RECITATION-AUGMENTED LANGUAGE MODELS
kNN PROMPTING: BEYOND-CONTEXT LEARNING WITH CALIBRATION-FREE NEAREST NEIGHBOR INFERENCE
EmotionPrompt: Leveraging Psychology for Large Language Models Enhancement via Emotional Stimulus
Causality-aware Concept Extraction based on Knowledge-guided Prompting
LARGE LANGUAGE MODELS AS OPTIMIZERS
Prompts As Programs: A Structure-Aware Approach to Efficient Compile-Time Prompt Optimization
Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V
RePrompt: Automatic Prompt Editing to Refine AI-Generative Art Towards Precise Expressions
MedPrompt: Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine
DSPy Assertions: Computational Constraints for Self-Refining Language Model Pipelines
Prompts as Auto-Optimized Training Hyperparameters: Training Best-in-Class IR Models from Scratch with 10 Gold Labels
In-Context Learning for Extreme Multi-Label Classification
Optimizing Instructions and Demonstrations for Multi-Stage Language Model Programs
DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines
CONNECTING LARGE LANGUAGE MODELS WITH EVOLUTIONARY ALGORITHMS YIELDS POWERFUL PROMP OPTIMIZERS
TextGrad: Automatic "Differentiation" via Text
Task Facet Learning: A Structured Approach to Prompt Optimization
LangGPT: Rethinking Structured Reusable Prompt Design Framework for LLMs from the Programming Language
PAS: Data-Efficient Plug-and-Play Prompt Augmentation System
Let Me Speak Freely? A Study on the Impact of Format Restrictions on Performance of Large Language Models
From Pen to Prompt: How Creative Writers Integrate AI into their Writing Practice
Does Prompt Formatting Have Any Impact on LLM Performance?
AUTO-DEMO PROMPTING: LEVERAGING GENERATED OUTPUTS AS DEMONSTRATIONS FOR ENHANCED BATCH PROMPTING
PROMPTBREEDER: SELF-REFERENTIAL SELF-IMPROVEMENT VIA PROMPT EVOLUTION

大模型图表理解和生成

Encuesta
- Table Meets LLM: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study
- Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and Understanding - A Survey
- Exploring the Numerical Reasoning Capabilities of Language Models: A Comprehensive Analysis on Tabular Data
inmediato
- Large Language Models are Versatile Decomposers: Decompose Evidence and Questions for Table-based Reasoning
- Tab-CoT: Zero-shot Tabular Chain of Thought
- Chain-of-Table: Evolving Tables in the Reasoning Chain for Table Understanding
fintuning
- TableLlama: Towards Open Large Generalist Models for Tables
- TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios
multimodal
- MMC: Advancing Multimodal Chart Understanding with Large-scale Instruction Tuning
- ChartLlama: A Multimodal LLM for Chart Understanding and Generation
- ChartAssisstant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning
- ChartInstruct: Instruction Tuning for Chart Comprehension and Reasoning
- ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning
- MATCHA : Enhancing Visual Language Pretraining with Math Reasoning and Chart Derendering
- UniChart: A Universal Vision-language Pretrained Model for Chart Comprehension and Reasoning
- TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning
- Tables as Texts or Images: Evaluating the Table Reasoning Ability of LLMs and MLLMs
- TableVQA-Bench: A Visual Question Answering Benchmark on Multiple Table Domains
- TabPedia: Towards Comprehensive Visual Table Understanding with Concept Synergy

LLM+KG

Descripción general
- Unifying Large Language Models and Knowledge Graphs: A Roadmap
- Large Language Models and Knowledge Graphs: Opportunities and Challenges
- 知识图谱与大模型融合实践研究报告2023
KG用于大模型推理
- Using Large Language Models for Zero-Shot Natural Language Generation from Knowledge Graphs
- MindMap: Knowledge Graph Prompting Sparks Graph of Thoughts in Large Language Models
- Knowledge-Augmented Language Model Prompting for Zero-Shot Knowledge Graph Question Answering
- Domain Specific Question Answering Over Knowledge Graphs Using Logical Programming and Large Language Models
- BRING YOUR OWN KG: Self-Supervised Program Synthesis for Zero-Shot KGQA
- StructGPT: A General Framework for Large Language Model to Reason over Structured Data
大模型用于KG构建
- Enhancing Knowledge Graph Construction Using Large Language Models
- LLM-assisted Knowledge Graph Engineering: Experiments with ChatGPT
- ITERATIVE ZERO-SHOT LLM PROMPTING FOR KNOWLEDGE GRAPH CONSTRUCTION
- Exploring Large Language Models for Knowledge Graph Completion

Humanoid Agents

HABITAT 3.0: A CO-HABITAT FOR HUMANS, AVATARS AND ROBOTS
Humanoid Agents: Platform for Simulating Human-like Generative Agents
Voyager: An Open-Ended Embodied Agent with Large Language Models
Shaping the future of advanced robotics
AUTORT: EMBODIED FOUNDATION MODELS FOR LARGE SCALE ORCHESTRATION OF ROBOTIC AGENTS
ROBOTIC TASK GENERALIZATION VIA HINDSIGHT TRAJECTORY SKETCHES
ALFWORLD: ALIGNING TEXT AND EMBODIED ENVIRONMENTS FOR INTERACTIVE LEARNING
MINEDOJO: Building Open-Ended Embodied Agents with Internet-Scale Knowledge
LEGENT: Open Platform for Embodied Agents

pretrain_data & pretrain

DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining
The Pile: An 800GB Dataset of Diverse Text for Language Modeling
CCNet: Extracting High Quality Monolingual Datasets fromWeb Crawl Data
WanJuan: A Comprehensive Multimodal Dataset for Advancing English and Chinese Large Models
CLUECorpus2020: A Large-scale Chinese Corpus for Pre-training Language Model
In-Context Pretraining: Language Modeling Beyond Document Boundaries
Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance
Zyda: A 1.3T Dataset for Open Language Modeling
Entropy Law: The Story Behind Data Compression and LLM Performance
Data, Data Everywhere: A Guide for Pretraining Dataset Construction
Data curation via joint example selection further accelerates multimodal learning
IMPROVING PRETRAINING DATA USING PERPLEXITY CORRELATIONS
AI models collapse when trained on recursively generated data

领域模型SFT(domain_llms)

finanzas
- BloombergGPT： A Large Language Model for Finance
- FinVis-GPT: A Multimodal Large Language Model for Financial Chart Analysis
- CFGPT: Chinese Financial Assistant with Large Language Model
- CFBenchmark: Chinese Financial Assistant Benchmark for Large Language Model
- InvestLM: A Large Language Model for Investment using Financial Domain Instruction Tuning
- BBT-Fin: Comprehensive Construction of Chinese Financial Domain Pre-trained Language Model, Corpus and Benchmark
- PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark for Finance
- The FinBen: An Holistic Financial Benchmark for Large Language Models
- XuanYuan 2.0: A Large Chinese Financial Chat Model with Hundreds of Billions Parameters
- Towards Trustworthy Large Language Models in Industry Domains
- When AI Meets Finance (StockAgent): Large Language Model-based Stock Trading in Simulated Real-world Environments
- A Survey of Large Language Models for Financial Applications: Progress, Prospects and Challenges
生物医疗
- MedGPT: Medical Concept Prediction from Clinical Narratives
- BioGPT：Generative Pre-trained Transformer for Biomedical Text Generation and Mining
- PubMed GPT: A Domain-specific large language model for biomedical text
- ChatDoctor：Medical Chat Model Fine-tuned on LLaMA Model using Medical Domain Knowledge
- Med-PaLM：Large Language Models Encode Clinical Knowledge[V1,V2]
- SMILE: Single-turn to Multi-turn Inclusive Language Expansion via ChatGPT for Mental Health Support
- Zhongjing: Enhancing the Chinese Medical Capabilities of Large Language Model through Expert Feedback and Real-world Multi-turn Dialogue
otro
- Galactia：A Large Language Model for Science
- Augmented Large Language Models with Parametric Knowledge Guiding
- ChatLaw Open-Source Legal Large Language Model
- MediaGPT : A Large Language Model For Chinese Media
- KITLM: Domain-Specific Knowledge InTegration into Language Models for Question Answering
- EcomGPT: Instruction-tuning Large Language Models with Chain-of-Task Tasks for E-commerce
- TableGPT: Towards Unifying Tables, Nature Language and Commands into One GPT
- LLEMMA: AN OPEN LANGUAGE MODEL FOR MATHEMATICS
- MEDITAB: SCALING MEDICAL TABULAR DATA PREDICTORS VIA DATA CONSOLIDATION, ENRICHMENT, AND REFINEMENT
- PLLaMa: An Open-source Large Language Model for Plant Science
- ADAPTING LARGE LANGUAGE MODELS VIA READING COMPREHENSION

LLM超长文本处理(long_input)

位置编码、注意力机制优化
- Unlimiformer: Long-Range Transformers with Unlimited Length Input
- Parallel Context Windows for Large Language Models
- 苏剑林, NBCE：使用朴素贝叶斯扩展LLM的Context处理长度
- Structured Prompting: Scaling In-Context Learning to 1,000 Examples
- Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing Important Tokens
- Scaling Transformer to 1M tokens and beyond with RMT
- TRAIN SHORT, TEST LONG: ATTENTION WITH LINEAR BIASES ENABLES INPUT LENGTH EXTRAPOLATION
- Extending Context Window of Large Language Models via Positional Interpolation
- LongNet: Scaling Transformers to 1,000,000,000 Tokens
- https://kaiokendev.github.io/til#extending-context-to-8k
- 苏剑林,Transformer升级之路：10、RoPE是一种β进制编码
- 苏剑林,Transformer升级之路：11、将β进制位置进行到底
- 苏剑林,Transformer升级之路：12、无限外推的ReRoPE？
- 苏剑林,Transformer升级之路：15、Key归一化助力长度外推
- EFFICIENT STREAMING LANGUAGE MODELS WITH ATTENTION SINKS
- Ring Attention with Blockwise Transformers for Near-Infinite Context
- YaRN: Efficient Context Window Extension of Large Language Models
- LM-INFINITE: SIMPLE ON-THE-FLY LENGTH GENERALIZATION FOR LARGE LANGUAGE MODELS
- EFFICIENT STREAMING LANGUAGE MODELS WITH ATTENTION SINKS
上文压缩排序方案
- Lost in the Middle: How Language Models Use Long Contexts
- LLMLingua: Compressing Prompts for Accelerated Inference of Large Language Models
- LongLLMLingua: Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression
- Learning to Compress Prompts with Gist Tokens
- Unlocking Context Constraints of LLMs: Enhancing Context Efficiency of LLMs with Self-Information-Based Content Filtering
- LongAgent: Scaling Language Models to 128k Context through Multi-Agent Collaboration
- PCToolkit: A Unified Plug-and-Play Prompt Compression Toolkit of Large Language Models
- Are Long-LLMs A Necessity For Long-Context Tasks?
训练和模型架构方案
- Never Train from Scratch: FAIR COMPARISON OF LONGSEQUENCE MODELS REQUIRES DATA-DRIVEN PRIORS
- Soaring from 4K to 400K: Extending LLM's Context with Activation Beacon
- Never Lost in the Middle: Improving Large Language Models via Attention Strengthening Question Answering
- Focused Transformer: Contrastive Training for Context Scaling
- Effective Long-Context Scaling of Foundation Models
- ON THE LONG RANGE ABILITIES OF TRANSFORMERS
- Efficient Long-Range Transformers: You Need to Attend More, but Not Necessarily at Every Layer
- POSE: EFFICIENT CONTEXT WINDOW EXTENSION OF LLMS VIA POSITIONAL SKIP-WISE TRAINING
- LONGLORA: EFFICIENT FINE-TUNING OF LONGCONTEXT LARGE LANGUAGE MODELS
- LongAlign: A Recipe for Long Context Alignment of Large Language Models
- Data Engineering for Scaling Language Models to 128K Context
- MEGALODON: Efficient LLM Pretraining and Inference with Unlimited Context Length
- Make Your LLM Fully Utilize the Context
- Untie the Knots: An Efficient Data Augmentation Strategy for Long-Context Pre-Training in Language Models
效率优化
- Efficient Attention: Attention with Linear Complexities
- Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention
- HyperAttention: Long-context Attention in Near-Linear Time
- FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness
- With Greater Text Comes Greater Necessity: Inference-Time Training Helps Long Text Generation

LLM长文本生成（long_output）

Re3 : Generating Longer Stories With Recursive Reprompting and Revision
RECURRENTGPT: Interactive Generation of (Arbitrarily) Long Text
DOC: Improving Long Story Coherence With Detailed Outline Control
Weaver: Foundation Models for Creative Writing
Assisting in Writing Wikipedia-like Articles From Scratch with Large Language Models
Into the Unknown Unknowns: Engaged Human Learning through Participation in Language Model Agent Conversations

NL2SQL

大模型方案
- DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with Self-Correction
- C3: Zero-shot Text-to-SQL with ChatGPT
- SQL-PALM: IMPROVED LARGE LANGUAGE MODEL ADAPTATION FOR TEXT-TO-SQL
- BIRD Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQL
- A Case-Based Reasoning Framework for Adaptive Prompting in Cross-Domain Text-to-SQL
- ChatDB: AUGMENTING LLMS WITH DATABASES AS THEIR SYMBOLIC MEMORY
- A comprehensive evaluation of ChatGPT's zero-shot Text-to-SQL capability
- Few-shot Text-to-SQL Translation using Structure and Content Prompt Learning
- Tool-Assisted Agent on SQL Inspection and Refinement in Real-World Scenarios
Domain Knowledge Intensive
- Towards Knowledge-Intensive Text-to-SQL Semantic Parsing with Formulaic Knowledge
- Bridging the Generalization Gap in Text-to-SQL Parsing with Schema Expansion
- Towards Robustness of Text-to-SQL Models against Synonym Substitution
- FinQA: A Dataset of Numerical Reasoning over Financial Data
Otros
- RESDSQL: Decoupling Schema Linking and Skeleton Parsing for Text-to-SQL
- MIGA: A Unified Multi-task Generation Framework for Conversational Text-to-SQL

主流LLMS和预训练

GLM-130B: AN OPEN BILINGUAL PRE-TRAINED MODEL
PaLM: Scaling Language Modeling with Pathways
PaLM 2 Technical Report
GPT-4 Technical Report
Backpack Language Models
LLaMA: Open and Efficient Foundation Language Models
Llama 2: Open Foundation and Fine-Tuned Chat Models
Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning
OpenBA: An Open-sourced 15B Bilingual Asymmetric seq2seq Model Pre-trained from Scratch
Mistral 7B
Ziya2: Data-centric Learning is All LLMs Need
MEGABLOCKS: EFFICIENT SPARSE TRAINING WITH MIXTURE-OF-EXPERTS
TUTEL: ADAPTIVE MIXTURE-OF-EXPERTS AT SCALE
Phi1- Textbooks Are All You Need
Phi1.5- Textbooks Are All You Need II: phi-1.5 technical report
Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone
Gemini: A Family of Highly Capable Multimodal Models
In-Context Pretraining: Language Modeling Beyond Document Boundaries
LLAMA PRO: Progressive LLaMA with Block Expansion
QWEN TECHNICAL REPORT
Fewer Truncations Improve Language Modeling
ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools
Phi-4 Technical Report
Byte Latent Transformer: Patches Scale Better Than Tokens
Qwen2.5 Technical Report
DeepSeek-V3 Technical Report
Mixtral of Experts

Code Generation

Code Generation with AlphaCodium: From Prompt Engineering to Flow Engineering
Codeforces as an Educational Platform for Learning Programming in Digitalization
Competition-Level Code Generation with AlphaCode
CODECHAIN: TOWARDS MODULAR CODE GENERATION THROUGH CHAIN OF SELF-REVISIONS WITH REPRESENTATIVE SUB-MODULES
AI Coders Are Among Us: Rethinking Programming Language Grammar Towards Efficient Code Generation

降低模型幻觉(reliability)

Encuesta
- Large language models and the perils of their hallucinations
- Survey of Hallucination in Natural Language Generation
- Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models
- A Survey of Hallucination in Large Foundation Models
- A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions
- Calibrated Language Models Must Hallucinate
- Why Does ChatGPT Fall Short in Providing Truthful Answers?
Prompt or Tunning
- R-Tuning: Teaching Large Language Models to Refuse Unknown Questions
- PROMPTING GPT-3 TO BE RELIABLE
- ASK ME ANYTHING: A SIMPLE STRATEGY FOR PROMPTING LANGUAGE MODELS
- On the Advance of Making Language Models Better Reasoners
- RefGPT: Reference → Truthful & Customized Dialogues Generation by GPTs and for GPTs
- Rethinking with Retrieval: Faithful Large Language Model Inference
- GENERATE RATHER THAN RETRIEVE: LARGE LANGUAGE MODELS ARE STRONG CONTEXT GENERATORS
- Large Language Models Struggle to Learn Long-Tail Knowledge
Decoding Strategy
- Trusting Your Evidence: Hallucinate Less with Context-aware Decoding
- SELF-REFINE:ITERATIVE REFINEMENT WITH SELF-FEEDBACK
- Enhancing Self-Consistency and Performance of Pre-Trained Language Models through Natural Language Inference
- Inference-Time Intervention: Eliciting Truthful Answers from a Language Model
- Enabling Large Language Models to Generate Text with Citations
- Factuality Enhanced Language Models for Open-Ended Text Generation
- KL-Divergence Guided Temperature Sampling
- KCTS: Knowledge-Constrained Tree Search Decoding with Token-Level Hallucination Detection
- CONTRASTIVE DECODING IMPROVES REASONING IN LARGE LANGUAGE MODEL
- Contrastive Decoding: Open-ended Text Generation as Optimization
Probing and Detection
- Automatic Evaluation of Attribution by Large Language Models
- QAFactEval: Improved QA-Based Factual Consistency Evaluation for Summarization
- Zero-Resource Hallucination Prevention for Large Language Models
- LLM Lies: Hallucinations are not Bugs, but Features as Adversarial Examples
- Language Models (Mostly) Know What They Know
- LM vs LM: Detecting Factual Errors via Cross Examination
- Do Language Models Know When They're Hallucinating References?
- SELFCHECKGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models
- SELF-CONTRADICTORY HALLUCINATIONS OF LLMS: EVALUATION, DETECTION AND MITIGATION
- Self-consistency for open-ended generations
- Improving Factuality and Reasoning in Language Models through Multiagent Debate
- Selective-LAMA: Selective Prediction for Confidence-Aware Evaluation of Language Models
- Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs
Reviewing and Calibration
- Truth-o-meter: Collaborating with llm in fighting its hallucinations
- RARR: Researching and Revising What Language Models Say, Using Language Models
- CRITIC: LARGE LANGUAGE MODELS CAN SELFCORRECT WITH TOOL-INTERACTIVE CRITIQUING
- VALIDATING LARGE LANGUAGE MODELS WITH RELM
- PURR: Efficiently Editing Language Model Hallucinations by Denoising Language Model Corruptions
- Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback
- Adaptive Chameleon or Stubborn Sloth: Unraveling the Behavior of Large Language Models in Knowledge Clashes
- Woodpecker: Hallucination Correction for Multimodal Large Language Models
- Zero-shot Faithful Factual Error Correction
- LARGE LANGUAGE MODELS CANNOT SELF-CORRECT REASONING YET
- Training Language Models to Self-Correct via Reinforcement Learning

大模型评估（evaluation）

事实性评估
- TRUSTWORTHY LLMS: A SURVEY AND GUIDELINE FOR EVALUATING LARGE LANGUAGE MODELS' ALIGNMENT
- TrueTeacher: Learning Factual Consistency Evaluation with Large Language Models
- TRUE: Re-evaluating Factual Consistency Evaluation
- FACTSCORE: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation
- KoLA: Carefully Benchmarking World Knowledge of Large Language Models
- When Not to Trust Language Models: Investigating Effectiveness of Parametric and Non-Parametric Memories
- FACTOOL: Factuality Detection in Generative AI A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios
- LONG-FORM FACTUALITY IN LARGE LANGUAGE MODELS
检测任务
- Detecting Pretraining Data from Large Language Models
- Scalable Extraction of Training Data from (Production) Language Models
- Rethinking Benchmark and Contamination for Language Models with Rephrased Samples

推理优化(inference)

Fast Transformer Decoding: One Write-Head is All You Need
Fast Inference from Transformers via Speculative Decoding
GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints
Skeleton-of-Thought: Large Language Models Can Do Parallel Decoding
SkipDecode: Autoregressive Skip Decoding with Batching and Caching for Efficient LLM Inference
BatchPrompt: Accomplish more with less
You Only Cache Once: Decoder-Decoder Architectures for Language Models
XGrammar: Flexible and Efficient Structured Generation Engine for Large Language Models
Precise Length Control in Large Language Models
Top-nσ: Not All Logits Are You Need
Prompt Cache: Modular Attention Reuse for Low-Latency Inference

模型知识编辑黑科技(model_edit)

ROME：Locating and Editing Factual Associations in GPT
Transformer Feed-Forward Layers Are Key-Value Memories
MEMIT: Mass-Editing Memory in a Transformer
MEND：Fast Model Editing at Scale
Editing Large Language Models: Problems, Methods, and Opportunities
Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch
Automata-based constraints for language model decoding
SGLang: Efficient Execution of Structured Language Model Programs

模型合并和剪枝(model_merge)

Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM
DARE Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch
EDITING MODELS WITH TASK ARITHMETIC
TIES-Merging: Resolving Interference When Merging Models
LM-Cocktail: Resilient Tuning of Language Models via Model Merging
SLICEGPT: COMPRESS LARGE LANGUAGE MODELS BY DELETING ROWS AND COLUMNS
Checkpoint Merging via Bayesian Optimization in LLM Pretrainin
Arcee's MergeKit: A Toolkit for Merging Large Language Models

Moe

Tricks for Training Sparse Translation Models
ST-MoE: Designing Stable and Transferable Sparse Expert Models
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
GLaM: Efficient Scaling of Language Models with Mixture-of-Experts
GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding
OUTRAGEOUSLY LARGE NEURAL NETWORKS: THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER
DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale
Dense-to-Sparse Gate for Mixture-of-Experts
Efficient Large Scale Language Modeling with Mixtures of Experts

Multimodal

InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning
Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
LLava Visual Instruction Tuning
MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models
BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual Questions
mPLUG-Owl : Modularization Empowers Large Language Models with Multimodality
LVLM eHub: A Comprehensive Evaluation Benchmark for Large VisionLanguage Models
Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities
PaLM-E: An Embodied Multimodal Language Model
TabLLM: Few-shot Classification of Tabular Data with Large Language Models
AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling
Sora tech report
Towards General Computer Control: A Multimodal Agent for Red Dead Redemption II as a Case Study
LOC
- Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models
- Large OCR Model:An Empirical Study of Scaling Law for OCR
- ON THE HIDDEN MYSTERY OF OCR IN LARGE MULTIMODAL MODELS
PreFLMR: Scaling Up Fine-Grained Late-Interaction Multi-modal Retrievers
Many-Shot In-Context Learning in Multimodal Foundation Models
Adding Conditional Control to Text-to-Image Diffusion Models
Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs
ShowUI: One Vision-Language-Action Model for GUI Visual Agent

Resumen

A Survey of Large Language Models
Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing
Paradigm Shift in Natural Language Processing
Pre-Trained Models: Past, Present and Future
What Language Model Architecture and Pretraining objects work best for zero shot generalization
Towards Reasoning in Large Language Models: A Survey
Reasoning with Language Model Prompting: A Survey
An Overview on Language Models: Recent Developments and Outlook
A Survey of Large Language Models[6.29更新版]
Unifying Large Language Models and Knowledge Graphs: A Roadmap
Augmented Language Models: a Survey
Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey
Challenges and Applications of Large Language Models
The Rise and Potential of Large Language Model Based Agents: A Survey
Large Language Models for Information Retrieval: A Survey
AI Alignment: A Comprehensive Survey
Trends in Integration of Knowledge and Large Language Models: A Survey and Taxonomy of Methods, Benchmarks, and Applications
Large Models for Time Series and Spatio-Temporal Data: A Survey and Outlook
A Survey on Language Models for Code
Model-as-a-Service (MaaS): A Survey

大模型能力探究

In Context Learning
- LARGER LANGUAGE MODELS DO IN-CONTEXT LEARNING DIFFERENTLY
- How does in-context learning work? A framework for understanding the differences from traditional supervised learning
- Why can GPT learn in-context? Language Model Secretly Perform Gradient Descent as Meta-Optimizers
- Rethinking the Role of Demonstrations What Makes incontext learning work?
- Trained Transformers Learn Linear Models In-Context
- In-Context Learning Creates Task Vectors
- FUNCTION VECTORS IN LARGE LANGUAGE MODELS
涌现能力
- Sparks of Artificial General Intelligence: Early experiments with GPT-4
- Emerging Ability of Large Language Models
- LANGUAGE MODELS REPRESENT SPACE AND TIME
- Are Emergent Abilities of Large Language Models a Mirage?
能力评估
- IS CHATGPT A GENERAL-PURPOSE NATURAL LANGUAGE PROCESSING TASK SOLVER?
- Can Large Language Models Infer Causation from Correlation?
- Holistic Evaluation of Language Model
- Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond
- Theory of Mind May Have Spontaneously Emerged in Large Language Models
- Beyond The Imitation Game: Quantifying And Extrapolating The Capabilities Of Language Models
- Do Models Explain Themselves? Counterfactual Simulatability of Natural Language Explanations
- Demystifying GPT Self-Repair for Code Generation
- Evidence of Meaning in Language Models Trained on Programs
- Can Explanations Be Useful for Calibrating Black Box Models
- On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective
- Language acquisition: do children and language models follow similar learning stages?
- Language is primarily a tool for communication rather than thought
领域能力
- Capabilities of GPT-4 on Medical Challenge Problems
- Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine
Understanding LLM Embeddings for Regression

Prompt Tunning范式

Tunning Free Prompt
- GPT2: Language Models are Unsupervised Multitask Learners
- GPT3: Language Models are Few-Shot Learners
- LAMA: Language Models as Knowledge Bases?
- AutoPrompt: Eliciting Knowledge from Language Models
Fix-Prompt LM Tunning
- T5: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
- PET-TC(a): Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference
- PET-TC(b): PETSGLUE It's Not Just Size That Matters Small Language Models are also few-shot learners
- GenPET: Few-Shot Text Generation with Natural Language Instructions
- LM-BFF: Making Pre-trained Language Models Better Few-shot Learners
- ADEPT: Improving and Simplifying Pattern Exploiting Training
Fix-LM Prompt Tunning
- Prefix-tuning: Optimizing continuous prompts for generation
- Prompt-tunning: The power of scale for parameter-efficient prompt tuning
- P-tunning: GPT Understands Too
- WARP: Word-level Adversarial ReProgramming
LM + Prompt Tunning
- P-tunning v2: Prompt Tuning Can Be Comparable to Fine-tunning Universally Across Scales and Tasks
- PTR: Prompt Tuning with Rules for Text Classification
- PADA: Example-based Prompt Learning for on-the-fly Adaptation to Unseen Domains
Fix-LM Adapter Tunning
- LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS
- LST: Ladder Side-Tuning for Parameter and Memory Efficient Transfer Learning
- Parameter-Efficient Transfer Learning for NLP
- INTRINSIC DIMENSIONALITY EXPLAINS THE EFFECTIVENESS OF LANGUAGE MODEL FINE-TUNING
- DoRA: Weight-Decomposed Low-Rank Adaptation
Representation Tuning
ReFT: Representation Finetuning for Language Models

Timeseries LLM

TimeGPT-1
Large Models for Time Series and Spatio-Temporal Data: A Survey and Outlook
TIME-LLM: TIME SERIES FORECASTING BY REPROGRAMMING LARGE LANGUAGE MODELS
Large Language Models Are Zero-Shot Time Series Forecasters
TEMPO: PROMPT-BASED GENERATIVE PRE-TRAINED TRANSFORMER FOR TIME SERIES FORECASTING
Generative Pre-Training of Time-Series Data for Unsupervised Fault Detection in Semiconductor Manufacturing
Lag-Llama: Towards Foundation Models for Time Series Forecasting
PromptCast: A New Prompt-based Learning Paradigm for Time Series Forecasting

Quanization

AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration
LLM-QAT: Data-Free Quantization Aware Training for Large Language Models
LLM.int8() 8-bit Matrix Multiplication for Transformers at Scale
SmoothQuant Accurate and Efficient Post-Training Quantization for Large Language Models

Adversarial Attacking

Curiosity-driven Red-teaming for Large Language Models
Red Teaming Language Models with Language Models
EXPLORE, ESTABLISH, EXPLOIT: RED-TEAMING LANGUAGE MODELS FROM SCRATCH

Modelo de diálogo

LaMDA: Language Models for Dialog Applications
Sparrow: Improving alignment of dialogue agents via targeted human judgements
BlenderBot 3: a deployed conversational agent that continually learns to responsibly engage
How NOT To Evaluate Your Dialogue System: An Empirical Study of Unsupervised Evaluation Metrics for Dialogue Response Generation
DialogStudio: Towards Richest and Most Diverse Unified Dataset Collection for Conversational AI
Enhancing Chat Language Models by Scaling High-quality Instructional Conversations
DiagGPT: An LLM-based Chatbot with Automatic Topic Management for Task-Oriented Dialogue

Otros

Pretraining on the Test Set Is All You Need 哈哈作者你是懂讽刺文学的
Learnware: Small Models Do Big
The economic potential of generative AI
A PhD Student's Perspective on Research in NLP in the Era of Very Large Language Models

Expandir