Download DecryptPrompt - DecryptPrompt , download do código -fonte

DecryptPrompt

Se a chegada repentina do LLM fizer você se sentir frustrado, você também pode ler as estratégias de sobrevivência de suas armas para acadêmicos de IA deprimidos no diretório doméstico. Estrela para manter atualizado ~

Resumo de Recursos LLM

Modelos de código aberto e listas de revisão
Raciocínio de código aberto, ajuste fino, agente, RAG, PROCMT Frameworks
DatAsets de pré -trail de código aberto SFT, RLHF
Resumo da aplicação em vários campos da AIGC
Tutoriais imediatos, blogs clássicos e entrevistas da conferência de IA

Leia papéis com seu blog

Descriptografar a Prompt Série 1. Prompt Free Tunning: GPT2 & GPT3 & LAMA & AutoProMpt
Descriptografar a série Prompt 2. Freeze Prompt Tuning Fine LM: T5 & PET & LM-BFF
Descriptografar a Prompt Série 3. Freeze LM Fine Tuning Pump: Tuneamento de prefixos e tunfing de prontidão e Tuneing
Descriptografar a Prompt Série 4. Atualização de instrução: Flan/T0/InstructGPT/Tkinstruct
Descriptografar a série 5.
Descriptografar a série Prompt 6. Lora Command Detalhes do botão de ajuste fino - Por favor, acalme -se, 1 hora não é suficiente ~
Descriptografar Série 7.
Descriptografar a Prompt Series 8. Nenhum treinamento necessário para permitir que o LLM suportasse entrada ultra longa: Base de conhecimento e Unlimiformer & PCW & NBCE
Descriptografando a série 9. BOT: Model Complex Inference-Basic Phinking Chain e Playback Avançado
Decripto da série Promp
Descriptografar a Prompt Série 11. BOT: Modelos pequenos também podem cot, e a deficiência inata é suplementada após o nascimento
Descriptografar a série Prompt 12. LLM Agent Zero Fine Tuning Paradigm React & Self pergunte
Descriptografar a Série Prompt 13. LLM AGENT INSTRUNDIÇÃO Solução de ajuste fino: Ferramentas e gorilas
Descriptografar a Série Prompt 14. Design de Aplicativo de Pesquisa do Agente LLM: WebGPT & WebGLM & Webcpm
Decripto de prompt Série 15.
Descriptografar a série Prompt 16. Quanto menos dados na experiência de alinhamento LLM, melhor? Ltd & Lima e Alpagásio
Descriptografar a Prompt Series 17. LLM Alignment Solution e atualizar o assistente e o BackTranslation & Auto-Align
Descriptografando a série Promp
Descriptografando Série 19. Aplicativos no campo da análise de dados do agente LLM: Data-Copilot & Insightpilot
Descriptografando a série Prompt 20. Rag de Rag-Talk sobre a otimização da diversidade Recall
Descriptografando o prompt Série 21. Rag-Talk de Rag na densidade e qualidade da informação de recall
Decriptua Série Prompt 22. Reflexão de Rag: ele desistiu de compressão ou inteligência?
Descriptografar a série de prompts 23. Diagrama cerebral completo da Big Model Hallucination Classification & Attribution & Detection & Mitigation Solution
Descriptografando a série Propt 24. Estratégias de treinamento para novas soluções RLHF: SLIC-HF & DPO & RRHF & RSO
Descriptografar a Série Propt 25. Rotulagem de amostra do esquema de melhoria do RLHF: RLAIF e salmão
Descriptografando a série Promp
Decripto da série Propt 27. Como reduzir a perda de capacidade geral na experiência de alinhamento LLM
Descriptografar a Série Prompt 28. LLM Agent Agent: Finmem & Finagent
Descriptografar a Prompt Série 29. LLM Agent do agente real soluções da API do mundo real: Toolllm & AnyTool
Descriptografar a Série Prompt 30.
Descriptografar o prompt Série 31. Aprendizagem contínua do agente LLM sobre a agilidade
Descriptografando o prompt Série 32. Tarefa de entendimento da tabela da LLM - Modal de texto
Descriptografando o prompt Série 33. Tarefa de compreensão do gráfico da LLM - Capítulo multimodal
Descriptografar a Série Propt 34. O treinamento do RLHF adota uma abordagem diferente: passo a passo e além
Descriptografar a série 35 Propt. A padronização imediata está em andamento! Espetos de papel dspy e exemplos de código
Descriptografar a série Prompt 36. Algoritmo de escrita e otimização pronta para uso uniprompt Uniprompt
Descriptografando a série Promp
Descriptografando Série Prompt 38. Política de roteamento multi-agente
Decripitar a série 39.
Descriptografando a Série Propt 40.
Descriptografar a série 41. O Graphrag é realmente uma bala de prata?
Descriptografando o caminho da Série 42.
Descriptografar a Série Propt 43. LLM Self Critics
Descriptografar o Modo de Exploração de Rags da Série Propt? Modo de pensamento profundo?
Descriptografar a Prompt Series 45. Explore LLM Scalable Supervision - qual é melhor em debate e jogo
Descriptografando a série Propt 46. LLM Exemplos de código de saída estruturados e análise de princípios
Descriptografando a série 47.

Resumo dos papéis

Lista de papel

https://github.com/dongguanting/in-context-learning_paperlist
https://github.com/thunlp/promptpapers
https://github.com/timothyxxx/chain-of-thoughtspapers
https://github.com/thunlp/toollearningpapers
https://github.com/mlgroupjlu/llm-eval-survey
https://github.com/thu-coai/paperForonlg
https://github.com/khuangaf/awesome-chart-undestanding

Cadeia de pensamento (Prompt_Chain_Of_thought)

Uso básico e avançado
- 【Modelos de linguagem grande de tiro zero-shot】 são raciocínio zero shot
- 【Casta de poucos tiro】 cadeia de pensamentos provocando o raciocínio em grandes modelos de linguagem
- 【Auto-consistência】 melhora a cadeia de raciocínio de pensamento em modelos de linguagem
- 【Menos ao máximo】 Promotamento permite raciocínio complexo em modelos de linguagem grandes
- 【Tot】 Tree of Pensts: Resolução deliberada de problemas com grandes modelos de linguagem
- 【Plano e solução】 Promotamento: Melhorando o raciocínio de cadeia de pensamento zero de tiro de pensamento por grandes modelos de linguagem
- 【Verificar e editar】: uma estrutura de cadeia de pensamento aprimorada pelo conhecimento
- 【Obteve】 além da cadeia de pensamento, raciocínio eficaz do gráfico de pensamentos em grandes modelos de idiomas
- 【Tomt】 Tree-of-Mixed-Phast: Combinando pensamento rápido e lento para o raciocínio visual multi-hop
- 【Lambada】: encadeamento para trás para raciocínio automatizado em linguagem natural
- 【AOT】 algoritmo de pensamentos: aprimorando a exploração de idéias em grandes modelos de linguagem
- 【Obteve】 Gráfico de pensamentos: resolvendo problemas elaborados com grandes modelos de linguagem
- 【Php】 O impulsionamento progressivo da ponta progressiva melhora o raciocínio em grandes modelos de linguagem
- 【Htt】 Modelos de idiomas grandes podem aprender regras
- 【Divse】 A diversidade do pensamento melhora as habilidades de raciocínio de grandes modelos de linguagem
- 【Cogtree】 De complexo ao simples: Desvendando a árvore cognitiva para raciocínio com pequenos modelos de linguagem
- 【Step-back】 Dê um passo para trás: evocando raciocínio via abstração em grandes modelos de linguagem
- 【OPRO】 Modelos de idiomas grandes como otimizadores
- 【Bot】 tampão de pensamentos: raciocínio de pensamento com modelos de idiomas grandes
- Resumo da pensamento torna os modelos de idiomas melhores raciocínio
- 【Symbcot】 Raciocínio lógico fiel via cadeia de pensamento simbólica
- 【Xot】 Tudo de pensamentos: Desaperando a Lei do Triângulo de Penrose para a Geração de Pensamento
- 【IoT】 iteração do pensamento: alavancando o diálogo interno para o raciocínio autônomo de modelo de grande idioma
- 【Ponto】 no diagrama do pensamento
- 【Rot】 Reversão do pensamento: Melhorando grandes modelos de linguagem com o aquecimento de raciocínio reverso guiado por preferência.
- Pensando em frente e para trás: planejamento eficaz para trás com grandes modelos de linguagem
- 【Kr】 Raciocínio de nível K: Estabelecendo crenças de ordem superior em grandes modelos de idiomas para raciocínio estratégico
- 【Auto-descoberta】 Auto-descoberta: grandes modelos de idiomas autocompondo estruturas de raciocínio
- 【Teoria da mente】 Qual a distância de grandes modelos de idiomas dos agentes com a teoria da mente?
- 【PC-Subq】 Estratégias de solicitação para permitir que grandes modelos de idiomas inferirem a causa da correlação
- O pensamento reverso torna os LLMs mais fortes dos raciocínio
Instruções para resolver problemas de berço não tradicionais
- Decomposto solicitando uma abordagem modular para resolver tarefas complexas
- Solicitação sucessiva para decompor questões complexas
BOT [Matemática, Código, Tabular, QA]
- Resolvendo problemas de raciocínio quantitativo com modelos de linguagem
- Mostre seu trabalho: ScratchPads para computação intermediária com modelos de idiomas
- Resolvendo problemas de palavras matemáticas com processo e feedback baseado em resultados
- Coderl: dominar a geração de códigos através de modelos pré -traidos e aprendizado de reforço profundo
- T-SCIQ: Ensinar o raciocínio multimodal da cadeia de pensamentos por meio de grandes sinais de modelo de idioma para resposta a perguntas sobre ciências
- Aprendendo edições de código de melhoria de desempenho de desempenho
- Cadeia de Código: Raciocínio com um emulador de código com modelo de modelo com modelo
Análise de princípios
- Cadeia de pensamento capacita transformadores para resolver problemas inerentemente em série
- Para entender a cadeia de pensamento que solicita: um estudo empírico do que importa
- Texto e padrões: Para uma cadeia de pensamento eficaz, é preciso dois para o tango
- Para revelar o mistério por trás da cadeia de pensamento: uma perspectiva teoricamente
- Modelos de linguagem grandes podem ser facilmente distraídos pelo contexto irrelevante
- Raciocínio da cadeia de pensamento sem levar
- Indutivo ou dedutivo? Repensando as habilidades fundamentais de raciocínio do LLMS
- Além da cadeia de pensamento: uma pesquisa com paradigmas de cadeia de x-X para LLMS
- Para cot ou não cot? Cadeia de pensamento ajuda principalmente no raciocínio matemático e simbólico
- Por que pensar passo a passo? O raciocínio emerge da localidade da experiência
- Consistência interna e auto-alimentação em grandes modelos de idiomas: uma pesquisa
- Cabeça de iteração: um estudo mecanicista da cadeia de pensamento
- O impacto do comprimento da etapa de raciocínio em grandes modelos de linguagem
- Os grandes modelos de linguagem realizam raciocínio múltiplo latente sem explorar atalhos?
- Cadeia de pensamento compactada: raciocínio eficiente através de densas representações
- Os LLMs realmente pensam passo a passo no raciocínio implícito?
Destilação de Berço de Modelo Pequeno
- Especializando modelos de linguagem menores para raciocínio em várias etapas
- Ensinar pequenos modelos de idiomas à razão
- Modelos de idiomas grandes estão raciocinando professores
- Destilar recursos de raciocínio em modelos de linguagem menores
- A coleção de berços: melhorando o aprendizado zero e de poucos modelos de idiomas por meio de ajuste fina de cadeia de pensamento
- Sistema de destilação 2 no sistema 1
Construção/seleção automática de amostras de COT
- AutoCot: cadeia de pensamento automática solicitando em grandes modelos de idiomas
- Solicitação ativa com cadeia de pensamento para grandes modelos de idiomas
- Solicitação baseada em complexidade para raciocínio de várias etapas
Aprendizagem de habilidade de berço
- Modelos de idiomas grandes podem se auto-melhorar
- Cadeia de pensamento de treinamento por meio de inferência de variável latente
- Quiet-Star: Modelos de idiomas podem se ensinar a pensar antes de falar
- Estrela: Razão de Bootstrapping autodidata com o raciocínio com raciocínio
- V-Star: Treinando verificadores para os motores autodidatos
- Pense antes de falar: Modelos de idiomas de treinamento com tokens de pausa
- Diálogos sintéticos autodirigidos e revisões relatórios técnicos
Outros
- OLAGPT POPOMPING LLMS com habilidades de solução de problemas humanas
- Desafiar tarefas de grande banco e se a cadeia de pensamento pode resolvê-las
- Modelos de idiomas grandes são melhores motivadores com auto-verificação
- Pensamentos, um centro central para grandes dados de raciocínio do modelo de idioma
- Duas falhas de autoconsistência no raciocínio de várias etapas do LLMS

RlHf

DeepMind
- Ensinar modelos de idiomas para apoiar respostas com citações verificadas
- Sparrow, Melhorando o alinhamento de agentes de diálogo via Targetd Human Judgments
- A amostragem de rejeição estatística melhora a otimização de preferência
- Auto-treinamento reforçado (descanso) para modelagem de idiomas
- SLIC-HF: Calibração de probabilidade de sequência com feedback humano
- A probabilidade de sequência de calibração melhora a geração de linguagem condicional
- Design de recompensa com modelos de idiomas
- RL final de respostas RL Problemas de palavras matemáticas com feedback e feedback baseado em resultados do processo
- Resolvendo problemas de palavras matemáticas com feedback baseado em processos e resultados
- Além dos dados humanos: dimensionar o auto-treinamento para solução de problemas com modelos de linguagem
- Bond: alinhando LLMs com a melhor destilação de N
- RL em dados sintéticos incorretos escalam a eficiência do raciocínio matemático LLM por oito vezes
- Verificadores generativos: modelagem de recompensa como previsão do próximo token
- Treinando modelos de idiomas para se auto-corrigir através do aprendizado de reforço
Openai
- PPO: algoritmos de otimização de políticas proximais
- Aprendizagem de reforço profundo para a preferência humana
- Modelos de linguagem de ajuste fino de preferências humanas
- Aprendendo a resumir do feedback humano
- InstructGPT: Treinando modelos de idiomas para seguir as instruções com feedback humano
- Leis de escala para o modelo de recompensa sobre otimização
- Generalização fraca a forte: provocando fortes capacidades com supervisão fraca
- PRM: Vamos verificar passo a passo
- Verificadores de treinamento para resolver problemas de palavras matemáticas [pré-dependência do PRM]
- Blog de super alinhamento do Openai
- Críticos LLM ajudam a capturar bugs llm
- Jogos de prover-verificador melhoram a legibilidade das saídas de LLM
- Recompensas baseadas em regras para a segurança do modelo de idioma
- Modelos de auto-crítica para ajudar os avaliadores humanos
Antrópico
- Um assistente de idioma geral como laboratório para alinhados
- Medindo o progresso na supervisão escalável ou em grandes modelos de linguagem
- Modelos de idiomas em equipes vermelhas para reduzir os métodos de danos, comportamentos de escala e lições aprendidas
- Treinar um assistente útil e inofensivo com o aprendizado de reforço com o feedback humano
- A IA constitucional inofensiva do feedback da IA
- Modelos de idiomas pré -treinamento com preferências humanas
- A capacidade de autocorreção moral em grandes modelos de linguagem
- Agentes Sleeper: Treinando LLMs Deceptive que persistem através da treinar de segurança
Allenai, RL4LM: é o aprendizado de reforço (não) para benchmarks de processamento de linguagem natural
Plano de melhoria
- RRHF: respostas de classificação para alinhar modelos de linguagem com feedback humano sem lágrimas
- Cadeia de retrospectiva alinha modelos de linguagem com feedback
- ALPACAFARM: Uma estrutura de simulação para métodos que aprendem com o feedback humano
- RATA: Recompensa classificada na Finetuning para alinhamento generativo do modelo de fundação
- RLAIF: dimensionar o aprendizado de reforço com o feedback humano com feedback de IA
- Treinar modelos de linguagem socialmente alinhados na sociedade humana simulada
- Chuva: seus modelos de idiomas podem se alinhar sem o Finetuning
- Juiz generativo para avaliar o alinhamento
- Esparecer através de preferências: Desvendando a aquisição de feedback para alinhar grandes modelos de linguagem
- Salmão: Alinhamento com modelos de recompensa que seguem os princípios
- Grande modelo de linguagem desaprendendo
- Otimização de preferência adversária
- Otimização de classificação de preferência para alinhamento humano
- Um longo caminho a percorrer: investigando correlações de comprimento no RLHF
- Ativar modelos de linguagem para aprender implicitamente o auto-aperfeiçoamento dos dados
- Ensembros do modelo de recompensa ajudam a mitigar a otimização sobre a otimização
- Aprendendo a vantagem ideal das preferências e confundi -la com recompensa
- Ultrafeedback: Aumentar modelos de linguagem com feedback de alta qualidade
- Motivo: Motivação intrínseca do feedback da inteligência artificial
- Estabilizar o RLHF através do modelo de vantagem e ensaio seletivo
- Pastor: um crítico para a geração de modelos de idiomas
- Aprendendo a gerar melhor do que o seu LLM
- O feedback humano de granulação fina oferece melhores recompensas para o treinamento de modelos de idiomas
- Auto-alinhamento orientado a princípios de modelos de linguagem do zero com supervisão humana mínima
- Otimização de preferência direta: seu modelo de idioma é secretamente um modelo de recompensa
- Sua sabedoria da retrospectiva faz dos modelos de idiomas melhores seguidores de instruções
- Alinhador: alcançar o alinhamento eficiente através da correção fraca a forte
- Uma abordagem minimalista para reforçar o aprendizado do feedback humano
- Panda: adaptação de preferência para melhorar a capacidade específica do domínio do LLMS
- Pesquisa fraca a forte: alinhe grandes modelos de linguagem através da pesquisa em modelos de idiomas pequenos
- Expapolação fraca a forte expedita alinhamento
- O DPO é superior ao PPO para o alinhamento LLM? Um estudo abrangente
- Otimização de preferência direta no nível do token
- Simpo: otimização simples de preferência com uma recompensa sem referência
- Autodetect: em direção a uma estrutura unificada para detecção de fraqueza automatizada em grandes modelos de linguagem
- Modelos de linguagem de meta-recompensa: alinhamento auto-improvante com o juiz LLM-AS-A-Meta-Judge
- Helpsteer: conjunto de dados de ajuda multi-atributo
- Introspecção recursiva: Ensinar o Modelo de Língua Agentes como se auto-melhorar
- Melhorando as habilidades de raciocínio em várias etapas dos modelos de linguagem por meio de otimização direta de função Q
- Deepseekmath: empurrando os limites do raciocínio matemático em modelos de linguagem aberta
- Glore: quando, onde e como melhorar o raciocínio de LLM via refinamentos globais e locais
- Reft: raciocínio com ajuste fino reforçado
- SCPO: otimização de preferência de autoconsistência
RL Exploration
- Compreendendo os efeitos do RLHF na generalização e diversidade do LLM
- Um longo caminho a percorrer: investigando correlações de comprimento no RLHF
- O impacto escluído da consistência da recompensa (in) no RLHF
- Problemas abertos e limitações fundamentais do aprendizado de reforço com o feedback humano
- O feedback humano não é padrão ouro
- Modelos de idiomas grandes pós-treinamento contrastivos no currículo de dados
- Modelos de idiomas resistem ao alinhamento

Post Train (com COT, RL)

Escala de inferência
- Uma análise empírica da inferência ideal de computação por solução de problemas com modelos de idiomas
- Mais chamadas LM são tudo o que você precisa? Em direção às propriedades de escala dos sistemas compostos de IA
- Macacos de idioma grande: escala de inferência de computação com amostragem repetida
- SCALING LLM TEST-TIPO TIME COMPUTE OTEMALMENTE pode ser mais eficaz do que os parâmetros do modelo de escala
- Q*: Melhorando o raciocínio de várias etapas para LLMs com planejamento deliberativo
- O planejamento na linguagem natural melhora a pesquisa de código de código
- REST-MCTS ∗: LLM Auto-treinamento via Process Recompensa Pesquisa de árvore guiada por recompensa
- Pesquisa de árvore do tipo Alphazero pode orientar um modelo de grande linguagem e treinamento
- Menor, mais fraco, mas melhor: Treinando LLM Razoners por meio de amostragem ideal de computação
- A surpreendente eficácia do treinamento em tempo de teste para o raciocínio abstrato
- Escala de inferência para geração aumentada de recuperação de longo contexto
- Em direção ao auto-aperfeiçoamento do LLMS via imaginação, pesquisa e crítica
berço de pensamento lento
- Jornada de replicação O1: um relatório de progresso estratégico - Parte 1
- Marco-O1: Rumo a modelos de raciocínio aberto para soluções abertas
- Um estudo comparativo sobre padrões de raciocínio do modelo O1 do OpenAI
- Imite, explore e auto-melhor: um relatório de reprodução sobre sistemas de raciocínio de pensamento lento
- Dualformer: Pensamento rápido e lento controlável, aprendendo com raciocínio randomizado
- Treinar grandes modelos de idiomas para raciocinar em um espaço latente contínuo
- Além de ∗: melhor planejamento com transformadores via Bootstrappping de dinâmica de pesquisa
- O1-Coder: uma replicação de O1 para codificação
- Escala de pesquisa e aprendizagem: um roteiro para reproduzir O1 da perspectiva de aprendizado de reforço
- Sky-t1: treine seu próprio modelo de visualização O1 dentro de US $ 450
- Rumo ao raciocínio do Sistema 2 no LLMS: Aprendendo a pensar com a meta-cadeia de pensamentos

Instruções Tuneamento e alinhamento fino (Instruction_Tunning)

Solução clássica
- Flan: Modelos de idiomas FinetUned são alunos de tiro zero
- Flan-T5: Modelos de linguagem de instrução-finerunada em escala
- Ext5: em direção à escala extrema de várias tarefas para o aprendizado de transferência
- Instruct-GPT: Treinando modelos de idiomas para seguir as instruções com feedback humano
- T0: O treinamento solicitado por várias tarefas permite a generalização de tarefas zero tiro
- Instruções naturais: generalização cruzada de tarefas através de instruções de crowdsourcing de linguagem natural
- TK-Instruct: Supernaturalinstructions: Generalização por meio de instruções declarativas em 1600+ tarefas de NLP
- Zeroprompt: escalar pré-treinamento baseado em 1.000 tarefas melhora a generalização de tiro zero
- Instruções não naturais: Ajustando modelos de linguagem com (quase) nenhum trabalho humano
- Instructeval para avaliação holística de grandes modelos de linguagem de instrução
Lei de escala de dados SFT
- Lima: menos é mais para o alinhamento
- Talvez apenas 0,5% de dados sejam necessários: uma exploração preliminar de ajuste de instrução de dados de baixo treinamento
- Alpagasus: treinando uma alpaca melhor com menos dados
- InstructionGPT-4: Um paradigma de 200 inseguros para o minigpt-4 de ajuste fino
- Mineração de instruções: Seleção de dados de instruções de alta qualidade para modelos de idiomas grandes
- Instrução visual ajustando com flamingo educado
- Explorando o impacto da escala de dados de instruções em grandes modelos de idiomas: um estudo empírico em casos de uso do mundo real
- Relacionamento de escala no aprendizado de raciocínio matemático com grandes modelos de idiomas
- Quando o Scaling se encontra
Novo esquema de alinhamento/ajuste fino
- Wizardlm: capacitar grandes modelos de linguagem para seguir instruções complexas
- Tornar-se auto-estrutura: introdução de critérios de parada antecipada para ajuste mínimo de instrução
- Auto-alinhamento com instrução Backtranslation
- Mistura de especialistas atende à instrução Tuning: Uma combinação vencedora para modelos de idiomas grandes
- Cabra: A llama ajustada supera o GPT-4 em tarefas aritméticas
- Prompt2Model: Gerando modelos implantáveis a partir de instruções de linguagem natural
- OpinionGPT: Modelando vieses explícitos em LLMs ajustados para instrução
- Melhorando a negociação de modelos de idiomas com a auto-reprodução e o aprendizado no contexto com o feedback da IA
- Generalização sistemática do tipo humano através de uma rede neural de meta-aprendizagem
- Magicoder: código -fonte é tudo o que você precisa
- Além dos dados humanos: dimensionar o auto-treinamento para solução de problemas com modelos de linguagem
- Ajuste de instrução representacional generativa
- INSCL: Um paradigma de aprendizado contínuo eficiente em termos de dados para modelos de idiomas grandes de ajuste fino com instruções
- A hierarquia de instruções: Treinando LLMs para priorizar instruções privilegiadas
- Magpie: Síntese de dados de alinhamento do zero, provocando LLMs alinhados sem nada
Geração de dados de instruções
- Macaco: grandes modelos de idiomas são engenheiros de prompt em nível humano
- Auto-instrução: alinhando o modelo de linguagem com instruções auto-geradas
- iprompt: explicando padrões de dados na linguagem natural por meio de autoprompating interpretável
- Aprendizagem invertida: adivinhe a instrução! O aprendizado invertido torna os modelos de idiomas mais fortes, alunos de tiro zero
- Feia guiada por justiça solicitando grandes modelos de idiomas
- Indução de instrução: De poucos exemplos a descrições de tarefas de linguagem natural.
- O conhecimento não supervisionou o alinhamento guiado.
- GPT auto-supervisão para um melhor anotador de dados
- A coleção de flan projetando dados e métodos
- Modelos generativos autoconsumantes enlouquecem
- Instructeval: Avaliação sistemática de métodos de seleção de instruções
- Substituindo preconceitos pré -traidos com dados de Finetuning
- Melhorando as incorporações de texto com grandes modelos de linguagem
- Magpie: Síntese de dados de alinhamento do zero, provocando LLMs alinhados sem nada
- Criação de dados sintéticos de escala com 1.000.000.000 de personas
- Liberando a capacidade de raciocínio dos LLMs por meio da síntese de perguntas escaláveis do zero
- Uma pesquisa sobre síntese de dados e aumento para grandes modelos de idiomas
- AgenteInstruct: Rumo ao ensino generativo com fluxos agênticos
- Investindo as falhas: explorando imperfeições em dados sintéticos e estratégias de mitigação para grandes modelos de idiomas
Como reduzir a perda de capacidade geral
- Como a habilidade em grandes modelos de linguagem são afetados pela composição de dados de ajuste fina supervisionado
- Tuneamento fino de dois estágios com menos especialização e mais generalização
Experiência de ajuste fino/relatório experimental
- BELLE: Explorando o impacto da escala de dados de instruções em grandes modelos de idiomas: um estudo empírico em casos de uso do mundo real
- Baiate: Baize: um modelo de bate-papo de código aberto com ajuste com eficiência de parâmetro nos dados do auto-traseiro
- Um estudo comparativo entre o parâmetro completo e o ajuste fino baseado em LORA em dados de instruções chinesas para LM grande
- Explorando a capacidade do ChatGPT de classificar o conteúdo: um estudo preliminar sobre consistência com preferências humanas
- Para uma melhor instrução a seguir modelos de idiomas para chinês: investigando o impacto dos dados de treinamento e avaliação
- Fine Tuning LLMs para Enterprise: Diretrizes e Recomendações Práticas
Outros
- Generalização cruzada através de fino multitarefas
- Generalização cruzada através de instruções de crowdsourcing de linguagem natural
- Unifiedskg: Unificação e conhecimento estruturado de multitarefa com modelos de idiomas de texto para texto
- Promptsource: um ambiente de desenvolvimento e repositório integrado para avisos de linguagem natural
- Rolellm: benchmarking, provocando e aprimorando as habilidades de interpretação de papéis de grandes modelos de linguagem

Agente LLM Deixe o modelo usar a ferramenta (llm_agent)

Agente AI: examinar os horizontes da interação multimodal
Uma pesquisa sobre grandes agentes autônomos baseados em modelos de idiomas
Agentes pessoais LLM: Insights e pesquisa sobre a capacidade, eficiência e segurança
Solução geral baseada em propt
- Reação: sinergizando raciocínio e atuação em modelos de idiomas
- Auto-mascame: medindo e estreitando a lacuna de composicionalidade em modelos de linguagem
- MRKL Systema Modular e arquitetura neuro-simbólica que combina grandes modelos de linguagem, fontes de conhecimento externas e raciocínio discreto
- Pal: modelos de idiomas auxiliados pelo programa
- ART: Raciocínio e uso automático de várias etapas para modelos de idiomas grandes
- Rewoo: Decomplando o raciocínio de observações para modelos de linguagem aumentados eficientes
- Recuperação de intercalação com o raciocínio da cadeia de pensamentos para perguntas de várias etapas intensivas em conhecimento
- Camaleão: raciocínio composicional plug-and-play com modelos de idiomas grandes
- Raciocínio fiel da cadeia de pensamento
- Reflexão: agentes de idiomas com aprendizado de reforço verbal
- Verifique e edit: uma estrutura de cadeia de pensamento aprimorada pelo conhecimento
- RESTGPT: Conectando modelos de linguagem grandes com APIs repousantes no mundo real
- Chatcot: Raciocínio da cadeia de pensamento com ferramentas com ferramentas em modelos de idiomas grandes baseados em bate-papo
- InstructTods: grandes modelos de idiomas para sistemas de diálogo de ponta a ponta, orientados a tarefas
- TPTU: Planejamento de tarefas e uso de ferramentas de grandes agentes de IA baseados em modelos de linguagem
- Controllm: Aumentar modelos de idiomas com ferramentas pesquisando em gráficos
- Reflexão: um agente autônomo com memória dinâmica e auto-reflexão
- Autoagentes: uma estrutura para geração automática de agentes
- Gitagent: Facilitando o agente autônomo com o GitHub por extensão da ferramenta
- Pré -, previsão de futuro no React, aprimora a capacidade de planejamento do agente
- Toolllm: Facilitando grandes modelos de idiomas para dominar mais de 16000 APIs do mundo real -NOTOL: Agentes hierárquicos auto-reflexivos para chamadas de API em larga escala
- AIOS: Sistema Operacional do Agente LLM
- Compilador LLM Um compilador LLM para chamada de função paralela
- Reinvo: Invocação de ferramentas Reescrita para recuperação de ferramentas zero-tiro
Solução geral com base no ajuste fino
- Talma: modelos de idiomas aumentados de ferramentas
- FORCESTOR: MODELOS DE IDIOMA podem se ensinar a usar ferramentas
- Aprendizagem de ferramentas com modelos de fundação
- Fabricante de ferramentas: grandes modelos de idiomas como fabricante de ferramentas
- TaskMatrix.ai: tarefas concluídas conectando modelos de fundação com milhões de APIs
- AgenteTUNING: Ativando o agente generalizado Aabilidades para o LLMS
- SwiftSage: um agente generativo com pensamento rápido e lento para tarefas interativas complexas
- FIREACT: em direção ao agente do idioma Tuneing fino
- Pangu-agente: um agente generalista ajustável com raciocínio estruturado
- REST ACOMENDOS REACT: Auto-aperfeiçoamento para o agente de LLM de raciocínio de várias etapas
- Uso eficiente da ferramenta com raciocínio de cadeia de abstração
- Flan de agente: projetando dados e métodos de ajuste eficaz do agente para modelos de idiomas grandes
- AGENTOHANA: Projetar dados unificados e pipeline de treinamento para aprendizado de agentes eficazes
- Agente Lumos: treinamento unificado e modular para agentes de idiomas de código aberto
- ToolGen: Recuperação de ferramentas unificadas e chamadas via geração
Chamando o esquema de modelo
- HuggingGPT: resolver tarefas de IA com ChatGPT e seus amigos em Huggingface
- Gorila: modelo de linguagem grande conectado com APIs maciças
- Openagi: Quando o LLM atende a especialistas em domínio
Campo vertical
- Análise de dados
  - DS-Agent: Ciência de dados automatizada, capacitando grandes modelos de idiomas com raciocínio baseado em casos
  - InsightLens: Descobrir e explorar idéias de contextos de conversação em análise de dados de modos de largura de língua larga
  - Copilot de dados: Bridgering Bilhões de dados e humanos com fluxo de trabalho autônomo
  - Demonstração de Insightpilot: um sistema de exploração de dados automatizado com LLM-EMPpoweed
  - TaskWeaver: uma estrutura de agente de código-primeiro
  - Ciência Social Automatizada: Modelos de Língua como Cientista e Assuntos
  - Intérprete de dados: um agente LLM para ciência de dados
- financiar
  - Weaverbird: capacitando a tomada de decisões financeiras com grande modelo de idioma, base de conhecimento e mecanismo de pesquisa
  - Fingpt: modelos de idiomas grandes de código aberto
  - FINMEM: um agente comercial LLM com desempenho com memória e design de personagem em camadas
  - Alphafin: Análise financeira de benchmarking usando estrutura de cadeia de ações aprimorada pela pesquisa
  - Um agente de fundação multimodal para negociação financeira: ferramenta agente, diversificada e generalista
  - Os grandes modelos de idiomas podem vencer Wall Street? Revelando o potencial da IA na seleção de estoque
  - Melhorando a detecção de anomalia em mercados financeiros com uma estrutura multi-agente baseada em LLM
  - TRADINGGPT: sistema multi-agente com memória em camadas e caracteres distintos para o desempenho aprimorado de negociação financeira
  - FinroBot: Uma plataforma de agente de IA de código aberto para aplicativos financeiros usando grandes modelos de idiomas
  - LLMFactor: Extraindo fatores lucrativos por meio de avisos para previsão de movimento de estoque explicável
  - Alpha-GPT: mineração alfa interativa de Human-AI para investimento quantitativo
  - Detecção de anomalia avançada: dados financeiros não semânticos que codificam com LLMS
  - Tradexpert: revolucionando o comércio com a mistura de LLMs de especialistas
  - Finvision: uma estrutura multi-agente para previsão do mercado de ações
  - AI em análise de investimento: LLMS para classificações de ações de ações
  - AAPM: grandes modelos de preços de ativos baseados em modelos de idiomas
- Biomedicina
  - Genegpt: Aumentando grandes modelos de idiomas com ferramentas de domínio para obter acesso aprimorado a informações biomédicas
  - ChemCrow Aumentando grandes modelos de linguagem com ferramentas de química
  - Gerando explicações na resposta à pergunta médica por inferência de maximização da expectativa sobre evidências
  - Hospital de agentes: um simulacro do hospital com agentes médicos evoluídos
  - Integração do conhecimento químico em grandes modelos de idiomas por meio de engenharia imediata
- Agente da Web/Mobile
  - Autowebglm: Bootstrap e reforça um grande agente de navegação na web baseado em modelo de linguagem
  - Um webagent do mundo real com o planejamento, a compreensão de longo contexto e a síntese de programas
  - Mind2Web: em direção a um agente generalista para a web
  - Aprendizagem de reforço de miniwob ++ em interfaces da web usando exploração guiada por fluxo de trabalho
  - Webarena: um ambiente da web realista proibindo agentes autônomos
  - Autocrawler: um agente da Web de entendimento progressivo para geração de rastreadores da web
  - Weblinx: navegação no site do mundo real com diálogo multi-turn
  - WebVoyager: Construindo um agente da web de ponta a ponta com grandes modelos multimodais
  - Cogagent: um modelo de linguagem visual para agentes da GUI
  - Mobile-Agent-V2: Assistente de operação de dispositivos móveis com navegação eficaz por colaboração multi-agente
  - WebCanvas: Benchmarking Web Agents em ambientes on -line
  - O Atown do Agente da GUI: um estudo de caso preliminar com Claude 3.5 Uso do computador
- Engenheiro de software
- Agentes em engenharia de software: pesquisa, paisagem e visão
- ChatDev: agentes comunicativos para desenvolvimento de software
- outro
  - Laboratório de agentes: Usando agentes LLM como assistentes de pesquisa
  - ResearchAgent: Geração de idéias de pesquisa iterativa sobre literatura científica com grandes modelos de linguagem
  - WebShop: em direção à interação escalável da Web do mundo real com agentes de idiomas fundamentados
  - Toolkengpt: Aumentando modelos de idiomas congelados com ferramentas enormes via ferramenta incorporadas
  - Pointllm: capacitar grandes modelos de linguagem para entender as nuvens de pontos
  - Responda a perguntas legais interpretáveis de longas
  - Carexpert: alavancando grandes modelos de linguagem para perguntas de conversação no carro
  - Sciagents: Automatando a descoberta científica através do raciocínio de gráficos inteligentes multi-agente
Avaliar
- Avaliando a verificabilidade nos mecanismos de pesquisa generativos
- Auto-GPT for Online Decision Making: Benchmarks and Additional Opinions
- API-Bank: A Benchmark for Tool-Augmented LLMs
- ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs
- Automatic Evaluation of Attribution by Large Language Models
- Benchmarking Large Language Models in Retrieval-Augmented Generation
- ARES: An Automated Evaluation Framework for Retrieval-Augmented Generation Systems
- Agent-as-a-Judge: Evaluate Agents with Agents
MultiAgent
- GENERATIVE AGENTS
- LET MODELS SPEAK CIPHERS: MULTIAGENT DEBATE THROUGH EMBEDDINGS
- War and Peace (WarAgent): Large Language Model-based Multi-Agent Simulation of World Wars
- Small LLMs Are Weak Tool Learners: A Multi-LLM Agent
- Merge, Ensemble, and Cooperate! A Survey on Collaborative Strategies in the Era of Large Language Models
- Generative Agents: Interactive Simulacra of Human Behavior
- AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors in Agents
- System-1.x: Learning to Balance Fast and Slow Planning with Language Models
- Agents Thinking Fast and Slow:A Talker-Reasoner Architecture
- Generative Agent Simulations of 1,000 People
- Advanced Reasoning and Learning for Autonomous AI Agents
- 多智能体系统
  - Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence
  - MULTI-AGENT COLLABORATION: HARNESSING THE POWER OF INTELLIGENT LLM AGENTS
  - Magentic-One: A Generalist Multi-Agent System for Solving Complex Tasks
任务型智能体协作
- METAAGENTS: SIMULATING INTERACTIONS OF HUMAN BEHAVIORS FOR LLM-BASED TASK-ORIENTED COORDINATION VIA COLLABORATIVE
- CAMEL: Communicative Agents for "Mind" Exploration of Large Scale Language Model Society
- Exploring Large Language Models for Communication Games: An Empirical Study on Werewolf
- Communicative Agents for Software Development
- MedAgents: Large Language Models as Collaborators for Zero-shot Medical Reasoning
- METAGPT: META PROGRAMMING FOR A MULTI-AGENT COLLABORATIVE FRAMEWORK
智能体路由
- One Agent To Rule Them All: Towards Multi-agent Conversational AI
- A Multi-Agent Conversational Recommender System
基座模型路由&Ensemble
- Large Language Model Routing with Benchmark Datasets
- LLM-BL ENDER: Ensembling Large Language Models with Pairwise Ranking and Generative Fusion
- RouteLLM: Learning to Route LLMs with Preference Data
- More Agents Is All You Need
- Routing to the Expert: Efficient Reward-guided Ensemble of Large Language Models
自主学习和探索进化
- AppAgent: Multimodal Agents as Smartphone Users
- Investigate-Consolidate-Exploit: A General Strategy for Inter-Task Agent Self-Evolution
- LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error
- Empowering Large Language Model Agents through Action Learning
- Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents
- OS-COPILOT: TOWARDS GENERALIST COMPUTER AGENTS WITH SELF-IMPROVEMENT
- LLAMA RIDER: SPURRING LARGE LANGUAGE MODELS TO EXPLORE THE OPEN WORLD
- PAST AS A GUIDE: LEVERAGING RETROSPECTIVE LEARNING FOR PYTHON CODE COMPLETION
- AutoGuide: Automated Generation and Selection of State-Aware Guidelines for Large Language Model Agents
- A Survey on Self-Evolution of Large Language Models
- ExpeL: LLM Agents Are Experiential Learners
- ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy
- PROACTIVE AGENT: SHIFTING LLM AGENTS FROM REACTIVE RESPONSES TO ACTIVE ASSISTANCE
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning
outro
- LLM+P: Empowering Large Language Models with Optimal Planning Proficiency
- Inference with Reference: Lossless Acceleration of Large Language Models
- RecallM: An Architecture for Temporal Context Understanding and Question Answering
- LLaMA Rider: Spurring Large Language Models to Explore the Open World
- LLMs Can't Plan, But Can Help Planning in LLM-Modulo Frameworks

RAG

经典论文
- WebGPT：Browser-assisted question-answering with human feedback
- WebGLM: Towards An Efficient Web-Enhanced Question Answering System with Human Preferences
- WebCPM: Interactive Web Search for Chinese Long-form Question Answering
- REPLUG: Retrieval-Augmented Black-Box Language Models
- RETA-LLM: A Retrieval-Augmented Large Language Model Toolkit
- Atlas: Few-shot Learning with Retrieval Augmented Language Models
- RRAML: Reinforced Retrieval Augmented Machine Learning
- FRESHLLMS: REFRESHING LARGE LANGUAGE MODELS WITH SEARCH ENGINE AUGMENTATION
Ajuste fino
- RLCF：Aligning the Capabilities of Large Language Models with the Context of Information Retrieval via Contrastive Feedback
- RA-DIT: RETRIEVAL-AUGMENTED DUAL INSTRUCTION TUNING
- CHAIN-OF-NOTE: ENHANCING ROBUSTNESS IN RETRIEVAL-AUGMENTED LANGUAGE MODELS
- RAFT: Adapting Language Model to Domain Specific RAG
- Rich Knowledge Sources Bring Complex Knowledge Conflicts: Recalibrating Models to Reflect Conflicting Evidence
其他论文
- Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation
- PDFTriage: Question Answering over Long, Structured Documents
- Walking Down the Memory Maze: Beyond Context Limit through Interactive Reading
- Active Retrieval Augmented Generation
- kNN-LM Does Not Improve Open-ended Text Generation
- Can Retriever-Augmented Language Models Reason? The Blame Game Between the Retriever and the Language Model
- DORIS-MAE: Scientific Document Retrieval using Multi-level Aspect-based Queries
- Factuality Enhanced Language Models for Open-Ended Text Generation
- KwaiAgents: Generalized Information-seeking Agent System with Large Language Models
- Complex Claim Verification with Evidence Retrieved in the Wild
- Retrieval-Augmented Generation for Large Language Models: A Survey
- ChatQA: Building GPT-4 Level Conversational QA Models
- RAG vs Fine-tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture
- Benchmarking Large Language Models in Retrieval-Augmented Generation
- T-RAG: Lessons from the LLM Trenches
- ARAGOG: Advanced RAG Output Grading
- ActiveRAG: Revealing the Treasures of Knowledge via Active Learning
- OpenResearcher: Unleashing AI for Accelerated Scientific Research
- Contextual.ai-RAG2.0
- Mindful-RAG: A Study of Points of Failure in Retrieval Augmented Generation
- Memory3 : Language Modeling with Explicit Memory
优化检索
- IAG: Induction-Augmented Generation Framework for Answering Reasoning Questions
- HyDE：Precise Zero-Shot Dense Retrieval without Relevance Labels
- PROMPTAGATOR : FEW-SHOT DENSE RETRIEVAL FROM 8 EXAMPLES
- Query Rewriting for Retrieval-Augmented Large Language Models
- Query2doc: Query Expansion with Large Language Models
- Query Expansion by Prompting Large Language Models
- Anthropic Contextual Retrieval
- Multi-Level Querying using A Knowledge Pyramid
- A Survey of Query Optimization in Large Language Models
Ranking
- A Setwise Approach for Effective and Highly Efficient Zero-shot Ranking with Large Language Models
- RankVicuna: Zero-Shot Listwise Document Reranking with Open-Source Large Language Models
- Improving Passage Retrieval with Zero-Shot Question Generation
- Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting
- RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs
- Ranking Manipulation for Conversational Search Engines
- Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents
- Opensource Large Language Models are Strong Zero-shot Query Likelihood Models for Document Ranking
- T2Ranking: A large-scale Chinese Benchmark for Passage Ranking
- Learning to Filter Context for Retrieval-Augmented Generation
传统搜索方案
- ASK THE RIGHT QUESTIONS:ACTIVE QUESTION REFORMULATION WITH REINFORCEMENT LEARNING
- Query Expansion Techniques for Information Retrieval a Survey
- Learning to Rewrite Queries
- Managing Diversity in Airbnb Search
新向量模型用于Recall和Ranking
- Augmented Embeddings for Custom Retrievals
- BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation
- 网易为RAG设计的BCE Embedding技术报告
- BGE Landmark Embedding: A Chunking-Free Embedding Method For Retrieval Augmented Long-Context Large Language Models
- D2LLM: Decomposed and Distilled Large Language Models for Semantic Search
- Piccolo2: General Text Embedding with Multi-task Hybrid Loss Training
优化推理结果
- Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting
动态RAG（When to Search & Search Plan）
- SELF-RAG: LEARNING TO RETRIEVE, GENERATE, AND CRITIQUE THROUGH SELF-REFLECTION
- Self-Knowledge Guided Retrieval Augmentation for Large Language Models
- Self-DC: When to retrieve and When to generate Self Divide-and-Conquer for Compositional Unknown Questions
- Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs
- Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity
- REAPER: Reasoning based Retrieval Planning for Complex RAG Systems
- When to Retrieve: Teaching LLMs to Utilize Information Retrieval Effectively
- PlanRAG: A Plan-then-Retrieval Augmented Generation for Generative Large Language Models as Decision Makers
- ONEGEN: EFFICIENT ONE-PASS UNIFIED GENERATION AND RETRIEVAL FOR LLMS
- Probing-RAG: Self-Probing to Guide Language Models in Selective Document Retrieval
Graph RAG
- GRAPH Retrieval-Augmented Generation: A Survey
- From Local to Global: A Graph RAG Approach to Query-Focused Summarization
- GRAG: Graph Retrieval-Augmented Generation
- GNN-RAG: Graph Neural Retrieval for Large Language Model Reasoning
- THINK-ON-GRAPH: DEEP AND RESPONSIBLE REASONING OF LARGE LANGUAGE MODEL ON KNOWLEDGE GRAPH
- LightRAG: Simple and Fast Retrieval-Augmented Generation
- THINK-ON-GRAPH: DEEP AND RESPONSIBLE REASON- ING OF LARGE LANGUAGE MODEL ON KNOWLEDGE GRAPH
- StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization
Multistep RAG
- SYNERGISTIC INTERPLAY BETWEEN SEARCH AND LARGE LANGUAGE MODELS FOR INFORMATION RETRIEVAL
- Interleaving Retrieval with Chain-of-Thought Reasoning for Knowledge-Intensive Multi-Step Questions
- Enhancing Retrieval-Augmented Large Language Models with Iterative Retrieval-Generation Synergy
- RAT: Retrieval Augmented Thoughts Elicit Context-Aware Reasoning in Long-Horizon Generation
- IM-RAG: Multi-Round Retrieval-Augmented Generation Through Learning Inner Monologues
- Demonstrate-Search-Predict: Composing retrieval and language models for knowledge-intensive NLP
- Search-in-the-Chain: Towards Accurate, Credible and Traceable Large Language Models for Knowledge-intensive Tasks
- MindSearch 思·索: Mimicking Human Minds Elicits Deep AI Searcher
- RQ-RAG: LEARNING TO REFINE QUERIES FOR RETRIEVAL AUGMENTED GENERATION
- AutoPRM: Automating Procedural Supervision for Multi-Step Reasoning via Controllable Question Decomposition
Timeline RAG
- Unfolding the Headline: Iterative Self-Questioning for News Retrieval and Timeline Summarization

Other Prompt Engineer(prompt_engineer)

Calibrate Before Use: Improving Few-Shot Performance of Language Models
In-Context Instruction Learning
LEARNING PERFORMANCE-IMPROVING CODE EDITS
Boosting Theory-of-Mind Performance in Large Language Models via Prompting
Generated Knowledge Prompting for Commonsense Reasoning
RECITATION-AUGMENTED LANGUAGE MODELS
kNN PROMPTING: BEYOND-CONTEXT LEARNING WITH CALIBRATION-FREE NEAREST NEIGHBOR INFERENCE
EmotionPrompt: Leveraging Psychology for Large Language Models Enhancement via Emotional Stimulus
Causality-aware Concept Extraction based on Knowledge-guided Prompting
LARGE LANGUAGE MODELS AS OPTIMIZERS
Prompts As Programs: A Structure-Aware Approach to Efficient Compile-Time Prompt Optimization
Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V
RePrompt: Automatic Prompt Editing to Refine AI-Generative Art Towards Precise Expressions
MedPrompt: Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine
DSPy Assertions: Computational Constraints for Self-Refining Language Model Pipelines
Prompts as Auto-Optimized Training Hyperparameters: Training Best-in-Class IR Models from Scratch with 10 Gold Labels
In-Context Learning for Extreme Multi-Label Classification
Optimizing Instructions and Demonstrations for Multi-Stage Language Model Programs
DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines
CONNECTING LARGE LANGUAGE MODELS WITH EVOLUTIONARY ALGORITHMS YIELDS POWERFUL PROMP OPTIMIZERS
TextGrad: Automatic "Differentiation" via Text
Task Facet Learning: A Structured Approach to Prompt Optimization
LangGPT: Rethinking Structured Reusable Prompt Design Framework for LLMs from the Programming Language
PAS: Data-Efficient Plug-and-Play Prompt Augmentation System
Let Me Speak Freely? A Study on the Impact of Format Restrictions on Performance of Large Language Models
From Pen to Prompt: How Creative Writers Integrate AI into their Writing Practice
Does Prompt Formatting Have Any Impact on LLM Performance?
AUTO-DEMO PROMPTING: LEVERAGING GENERATED OUTPUTS AS DEMONSTRATIONS FOR ENHANCED BATCH PROMPTING
PROMPTBREEDER: SELF-REFERENTIAL SELF-IMPROVEMENT VIA PROMPT EVOLUTION

大模型图表理解和生成

Enquete
- Table Meets LLM: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study
- Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and Understanding - A Survey
- Exploring the Numerical Reasoning Capabilities of Language Models: A Comprehensive Analysis on Tabular Data
incitar
- Large Language Models are Versatile Decomposers: Decompose Evidence and Questions for Table-based Reasoning
- Tab-CoT: Zero-shot Tabular Chain of Thought
- Chain-of-Table: Evolving Tables in the Reasoning Chain for Table Understanding
fintuning
- TableLlama: Towards Open Large Generalist Models for Tables
- TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios
multimodal
- MMC: Advancing Multimodal Chart Understanding with Large-scale Instruction Tuning
- ChartLlama: A Multimodal LLM for Chart Understanding and Generation
- ChartAssisstant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning
- ChartInstruct: Instruction Tuning for Chart Comprehension and Reasoning
- ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning
- MATCHA : Enhancing Visual Language Pretraining with Math Reasoning and Chart Derendering
- UniChart: A Universal Vision-language Pretrained Model for Chart Comprehension and Reasoning
- TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning
- Tables as Texts or Images: Evaluating the Table Reasoning Ability of LLMs and MLLMs
- TableVQA-Bench: A Visual Question Answering Benchmark on Multiple Table Domains
- TabPedia: Towards Comprehensive Visual Table Understanding with Concept Synergy

LLM+KG

Visão geral
- Unifying Large Language Models and Knowledge Graphs: A Roadmap
- Large Language Models and Knowledge Graphs: Opportunities and Challenges
- 知识图谱与大模型融合实践研究报告2023
KG用于大模型推理
- Using Large Language Models for Zero-Shot Natural Language Generation from Knowledge Graphs
- MindMap: Knowledge Graph Prompting Sparks Graph of Thoughts in Large Language Models
- Knowledge-Augmented Language Model Prompting for Zero-Shot Knowledge Graph Question Answering
- Domain Specific Question Answering Over Knowledge Graphs Using Logical Programming and Large Language Models
- BRING YOUR OWN KG: Self-Supervised Program Synthesis for Zero-Shot KGQA
- StructGPT: A General Framework for Large Language Model to Reason over Structured Data
大模型用于KG构建
- Enhancing Knowledge Graph Construction Using Large Language Models
- LLM-assisted Knowledge Graph Engineering: Experiments with ChatGPT
- ITERATIVE ZERO-SHOT LLM PROMPTING FOR KNOWLEDGE GRAPH CONSTRUCTION
- Exploring Large Language Models for Knowledge Graph Completion

Humanoid Agents

HABITAT 3.0: A CO-HABITAT FOR HUMANS, AVATARS AND ROBOTS
Humanoid Agents: Platform for Simulating Human-like Generative Agents
Voyager: An Open-Ended Embodied Agent with Large Language Models
Shaping the future of advanced robotics
AUTORT: EMBODIED FOUNDATION MODELS FOR LARGE SCALE ORCHESTRATION OF ROBOTIC AGENTS
ROBOTIC TASK GENERALIZATION VIA HINDSIGHT TRAJECTORY SKETCHES
ALFWORLD: ALIGNING TEXT AND EMBODIED ENVIRONMENTS FOR INTERACTIVE LEARNING
MINEDOJO: Building Open-Ended Embodied Agents with Internet-Scale Knowledge
LEGENT: Open Platform for Embodied Agents

pretrain_data & pretrain

DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining
The Pile: An 800GB Dataset of Diverse Text for Language Modeling
CCNet: Extracting High Quality Monolingual Datasets fromWeb Crawl Data
WanJuan: A Comprehensive Multimodal Dataset for Advancing English and Chinese Large Models
CLUECorpus2020: A Large-scale Chinese Corpus for Pre-training Language Model
In-Context Pretraining: Language Modeling Beyond Document Boundaries
Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance
Zyda: A 1.3T Dataset for Open Language Modeling
Entropy Law: The Story Behind Data Compression and LLM Performance
Data, Data Everywhere: A Guide for Pretraining Dataset Construction
Data curation via joint example selection further accelerates multimodal learning
IMPROVING PRETRAINING DATA USING PERPLEXITY CORRELATIONS
AI models collapse when trained on recursively generated data

领域模型SFT(domain_llms)

financiar
- BloombergGPT： A Large Language Model for Finance
- FinVis-GPT: A Multimodal Large Language Model for Financial Chart Analysis
- CFGPT: Chinese Financial Assistant with Large Language Model
- CFBenchmark: Chinese Financial Assistant Benchmark for Large Language Model
- InvestLM: A Large Language Model for Investment using Financial Domain Instruction Tuning
- BBT-Fin: Comprehensive Construction of Chinese Financial Domain Pre-trained Language Model, Corpus and Benchmark
- PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark for Finance
- The FinBen: An Holistic Financial Benchmark for Large Language Models
- XuanYuan 2.0: A Large Chinese Financial Chat Model with Hundreds of Billions Parameters
- Towards Trustworthy Large Language Models in Industry Domains
- When AI Meets Finance (StockAgent): Large Language Model-based Stock Trading in Simulated Real-world Environments
- A Survey of Large Language Models for Financial Applications: Progress, Prospects and Challenges
生物医疗
- MedGPT: Medical Concept Prediction from Clinical Narratives
- BioGPT：Generative Pre-trained Transformer for Biomedical Text Generation and Mining
- PubMed GPT: A Domain-specific large language model for biomedical text
- ChatDoctor：Medical Chat Model Fine-tuned on LLaMA Model using Medical Domain Knowledge
- Med-PaLM：Large Language Models Encode Clinical Knowledge[V1,V2]
- SMILE: Single-turn to Multi-turn Inclusive Language Expansion via ChatGPT for Mental Health Support
- Zhongjing: Enhancing the Chinese Medical Capabilities of Large Language Model through Expert Feedback and Real-world Multi-turn Dialogue
outro
- Galactia：A Large Language Model for Science
- Augmented Large Language Models with Parametric Knowledge Guiding
- ChatLaw Open-Source Legal Large Language Model
- MediaGPT : A Large Language Model For Chinese Media
- KITLM: Domain-Specific Knowledge InTegration into Language Models for Question Answering
- EcomGPT: Instruction-tuning Large Language Models with Chain-of-Task Tasks for E-commerce
- TableGPT: Towards Unifying Tables, Nature Language and Commands into One GPT
- LLEMMA: AN OPEN LANGUAGE MODEL FOR MATHEMATICS
- MEDITAB: SCALING MEDICAL TABULAR DATA PREDICTORS VIA DATA CONSOLIDATION, ENRICHMENT, AND REFINEMENT
- PLLaMa: An Open-source Large Language Model for Plant Science
- ADAPTING LARGE LANGUAGE MODELS VIA READING COMPREHENSION

LLM超长文本处理(long_input)

位置编码、注意力机制优化
- Unlimiformer: Long-Range Transformers with Unlimited Length Input
- Parallel Context Windows for Large Language Models
- 苏剑林, NBCE：使用朴素贝叶斯扩展LLM的Context处理长度
- Structured Prompting: Scaling In-Context Learning to 1,000 Examples
- Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing Important Tokens
- Scaling Transformer to 1M tokens and beyond with RMT
- TRAIN SHORT, TEST LONG: ATTENTION WITH LINEAR BIASES ENABLES INPUT LENGTH EXTRAPOLATION
- Extending Context Window of Large Language Models via Positional Interpolation
- LongNet: Scaling Transformers to 1,000,000,000 Tokens
- https://kaiokendev.github.io/til#extending-context-to-8k
- 苏剑林,Transformer升级之路：10、RoPE是一种β进制编码
- 苏剑林,Transformer升级之路：11、将β进制位置进行到底
- 苏剑林,Transformer升级之路：12、无限外推的ReRoPE？
- 苏剑林,Transformer升级之路：15、Key归一化助力长度外推
- EFFICIENT STREAMING LANGUAGE MODELS WITH ATTENTION SINKS
- Ring Attention with Blockwise Transformers for Near-Infinite Context
- YaRN: Efficient Context Window Extension of Large Language Models
- LM-INFINITE: SIMPLE ON-THE-FLY LENGTH GENERALIZATION FOR LARGE LANGUAGE MODELS
- EFFICIENT STREAMING LANGUAGE MODELS WITH ATTENTION SINKS
上文压缩排序方案
- Lost in the Middle: How Language Models Use Long Contexts
- LLMLingua: Compressing Prompts for Accelerated Inference of Large Language Models
- LongLLMLingua: Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression
- Learning to Compress Prompts with Gist Tokens
- Unlocking Context Constraints of LLMs: Enhancing Context Efficiency of LLMs with Self-Information-Based Content Filtering
- LongAgent: Scaling Language Models to 128k Context through Multi-Agent Collaboration
- PCToolkit: A Unified Plug-and-Play Prompt Compression Toolkit of Large Language Models
- Are Long-LLMs A Necessity For Long-Context Tasks?
训练和模型架构方案
- Never Train from Scratch: FAIR COMPARISON OF LONGSEQUENCE MODELS REQUIRES DATA-DRIVEN PRIORS
- Soaring from 4K to 400K: Extending LLM's Context with Activation Beacon
- Never Lost in the Middle: Improving Large Language Models via Attention Strengthening Question Answering
- Focused Transformer: Contrastive Training for Context Scaling
- Effective Long-Context Scaling of Foundation Models
- ON THE LONG RANGE ABILITIES OF TRANSFORMERS
- Efficient Long-Range Transformers: You Need to Attend More, but Not Necessarily at Every Layer
- POSE: EFFICIENT CONTEXT WINDOW EXTENSION OF LLMS VIA POSITIONAL SKIP-WISE TRAINING
- LONGLORA: EFFICIENT FINE-TUNING OF LONGCONTEXT LARGE LANGUAGE MODELS
- LongAlign: A Recipe for Long Context Alignment of Large Language Models
- Data Engineering for Scaling Language Models to 128K Context
- MEGALODON: Efficient LLM Pretraining and Inference with Unlimited Context Length
- Make Your LLM Fully Utilize the Context
- Untie the Knots: An Efficient Data Augmentation Strategy for Long-Context Pre-Training in Language Models
Otimização de eficiência
- Efficient Attention: Attention with Linear Complexities
- Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention
- HyperAttention: Long-context Attention in Near-Linear Time
- FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness
- With Greater Text Comes Greater Necessity: Inference-Time Training Helps Long Text Generation

LLM长文本生成（long_output）

Re3 : Generating Longer Stories With Recursive Reprompting and Revision
RECURRENTGPT: Interactive Generation of (Arbitrarily) Long Text
DOC: Improving Long Story Coherence With Detailed Outline Control
Weaver: Foundation Models for Creative Writing
Assisting in Writing Wikipedia-like Articles From Scratch with Large Language Models
Into the Unknown Unknowns: Engaged Human Learning through Participation in Language Model Agent Conversations

NL2SQL

大模型方案
- DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with Self-Correction
- C3: Zero-shot Text-to-SQL with ChatGPT
- SQL-PALM: IMPROVED LARGE LANGUAGE MODEL ADAPTATION FOR TEXT-TO-SQL
- BIRD Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQL
- A Case-Based Reasoning Framework for Adaptive Prompting in Cross-Domain Text-to-SQL
- ChatDB: AUGMENTING LLMS WITH DATABASES AS THEIR SYMBOLIC MEMORY
- A comprehensive evaluation of ChatGPT's zero-shot Text-to-SQL capability
- Few-shot Text-to-SQL Translation using Structure and Content Prompt Learning
- Tool-Assisted Agent on SQL Inspection and Refinement in Real-World Scenarios
Domain Knowledge Intensive
- Towards Knowledge-Intensive Text-to-SQL Semantic Parsing with Formulaic Knowledge
- Bridging the Generalization Gap in Text-to-SQL Parsing with Schema Expansion
- Towards Robustness of Text-to-SQL Models against Synonym Substitution
- FinQA: A Dataset of Numerical Reasoning over Financial Data
Outros
- RESDSQL: Decoupling Schema Linking and Skeleton Parsing for Text-to-SQL
- MIGA: A Unified Multi-task Generation Framework for Conversational Text-to-SQL

主流LLMS和预训练

GLM-130B: AN OPEN BILINGUAL PRE-TRAINED MODEL
PaLM: Scaling Language Modeling with Pathways
PaLM 2 Technical Report
GPT-4 Technical Report
Backpack Language Models
LLaMA: Open and Efficient Foundation Language Models
Llama 2: Open Foundation and Fine-Tuned Chat Models
Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning
OpenBA: An Open-sourced 15B Bilingual Asymmetric seq2seq Model Pre-trained from Scratch
Mistral 7B
Ziya2: Data-centric Learning is All LLMs Need
MEGABLOCKS: EFFICIENT SPARSE TRAINING WITH MIXTURE-OF-EXPERTS
TUTEL: ADAPTIVE MIXTURE-OF-EXPERTS AT SCALE
Phi1- Textbooks Are All You Need
Phi1.5- Textbooks Are All You Need II: phi-1.5 technical report
Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone
Gemini: A Family of Highly Capable Multimodal Models
In-Context Pretraining: Language Modeling Beyond Document Boundaries
LLAMA PRO: Progressive LLaMA with Block Expansion
QWEN TECHNICAL REPORT
Fewer Truncations Improve Language Modeling
ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools
Phi-4 Technical Report
Byte Latent Transformer: Patches Scale Better Than Tokens
Qwen2.5 Technical Report
DeepSeek-V3 Technical Report
Mixtral of Experts

Code Generation

Code Generation with AlphaCodium: From Prompt Engineering to Flow Engineering
Codeforces as an Educational Platform for Learning Programming in Digitalization
Competition-Level Code Generation with AlphaCode
CODECHAIN: TOWARDS MODULAR CODE GENERATION THROUGH CHAIN OF SELF-REVISIONS WITH REPRESENTATIVE SUB-MODULES
AI Coders Are Among Us: Rethinking Programming Language Grammar Towards Efficient Code Generation

降低模型幻觉(reliability)

Enquete
- Large language models and the perils of their hallucinations
- Survey of Hallucination in Natural Language Generation
- Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models
- A Survey of Hallucination in Large Foundation Models
- A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions
- Calibrated Language Models Must Hallucinate
- Why Does ChatGPT Fall Short in Providing Truthful Answers?
Prompt or Tunning
- R-Tuning: Teaching Large Language Models to Refuse Unknown Questions
- PROMPTING GPT-3 TO BE RELIABLE
- ASK ME ANYTHING: A SIMPLE STRATEGY FOR PROMPTING LANGUAGE MODELS
- On the Advance of Making Language Models Better Reasoners
- RefGPT: Reference → Truthful & Customized Dialogues Generation by GPTs and for GPTs
- Rethinking with Retrieval: Faithful Large Language Model Inference
- GENERATE RATHER THAN RETRIEVE: LARGE LANGUAGE MODELS ARE STRONG CONTEXT GENERATORS
- Large Language Models Struggle to Learn Long-Tail Knowledge
Decoding Strategy
- Trusting Your Evidence: Hallucinate Less with Context-aware Decoding
- SELF-REFINE:ITERATIVE REFINEMENT WITH SELF-FEEDBACK
- Enhancing Self-Consistency and Performance of Pre-Trained Language Models through Natural Language Inference
- Inference-Time Intervention: Eliciting Truthful Answers from a Language Model
- Enabling Large Language Models to Generate Text with Citations
- Factuality Enhanced Language Models for Open-Ended Text Generation
- KL-Divergence Guided Temperature Sampling
- KCTS: Knowledge-Constrained Tree Search Decoding with Token-Level Hallucination Detection
- CONTRASTIVE DECODING IMPROVES REASONING IN LARGE LANGUAGE MODEL
- Contrastive Decoding: Open-ended Text Generation as Optimization
Probing and Detection
- Automatic Evaluation of Attribution by Large Language Models
- QAFactEval: Improved QA-Based Factual Consistency Evaluation for Summarization
- Zero-Resource Hallucination Prevention for Large Language Models
- LLM Lies: Hallucinations are not Bugs, but Features as Adversarial Examples
- Language Models (Mostly) Know What They Know
- LM vs LM: Detecting Factual Errors via Cross Examination
- Do Language Models Know When They're Hallucinating References?
- SELFCHECKGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models
- SELF-CONTRADICTORY HALLUCINATIONS OF LLMS: EVALUATION, DETECTION AND MITIGATION
- Self-consistency for open-ended generations
- Improving Factuality and Reasoning in Language Models through Multiagent Debate
- Selective-LAMA: Selective Prediction for Confidence-Aware Evaluation of Language Models
- Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs
Reviewing and Calibration
- Truth-o-meter: Collaborating with llm in fighting its hallucinations
- RARR: Researching and Revising What Language Models Say, Using Language Models
- CRITIC: LARGE LANGUAGE MODELS CAN SELFCORRECT WITH TOOL-INTERACTIVE CRITIQUING
- VALIDATING LARGE LANGUAGE MODELS WITH RELM
- PURR: Efficiently Editing Language Model Hallucinations by Denoising Language Model Corruptions
- Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback
- Adaptive Chameleon or Stubborn Sloth: Unraveling the Behavior of Large Language Models in Knowledge Clashes
- Woodpecker: Hallucination Correction for Multimodal Large Language Models
- Zero-shot Faithful Factual Error Correction
- LARGE LANGUAGE MODELS CANNOT SELF-CORRECT REASONING YET
- Training Language Models to Self-Correct via Reinforcement Learning

大模型评估（evaluation）

事实性评估
- TRUSTWORTHY LLMS: A SURVEY AND GUIDELINE FOR EVALUATING LARGE LANGUAGE MODELS' ALIGNMENT
- TrueTeacher: Learning Factual Consistency Evaluation with Large Language Models
- TRUE: Re-evaluating Factual Consistency Evaluation
- FACTSCORE: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation
- KoLA: Carefully Benchmarking World Knowledge of Large Language Models
- When Not to Trust Language Models: Investigating Effectiveness of Parametric and Non-Parametric Memories
- FACTOOL: Factuality Detection in Generative AI A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios
- LONG-FORM FACTUALITY IN LARGE LANGUAGE MODELS
检测任务
- Detecting Pretraining Data from Large Language Models
- Scalable Extraction of Training Data from (Production) Language Models
- Rethinking Benchmark and Contamination for Language Models with Rephrased Samples

推理优化(inference)

Fast Transformer Decoding: One Write-Head is All You Need
Fast Inference from Transformers via Speculative Decoding
GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints
Skeleton-of-Thought: Large Language Models Can Do Parallel Decoding
SkipDecode: Autoregressive Skip Decoding with Batching and Caching for Efficient LLM Inference
BatchPrompt: Accomplish more with less
You Only Cache Once: Decoder-Decoder Architectures for Language Models
XGrammar: Flexible and Efficient Structured Generation Engine for Large Language Models
Precise Length Control in Large Language Models
Top-nσ: Not All Logits Are You Need
Prompt Cache: Modular Attention Reuse for Low-Latency Inference

模型知识编辑黑科技(model_edit)

ROME：Locating and Editing Factual Associations in GPT
Transformer Feed-Forward Layers Are Key-Value Memories
MEMIT: Mass-Editing Memory in a Transformer
MEND：Fast Model Editing at Scale
Editing Large Language Models: Problems, Methods, and Opportunities
Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch
Automata-based constraints for language model decoding
SGLang: Efficient Execution of Structured Language Model Programs

模型合并和剪枝(model_merge)

Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM
DARE Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch
EDITING MODELS WITH TASK ARITHMETIC
TIES-Merging: Resolving Interference When Merging Models
LM-Cocktail: Resilient Tuning of Language Models via Model Merging
SLICEGPT: COMPRESS LARGE LANGUAGE MODELS BY DELETING ROWS AND COLUMNS
Checkpoint Merging via Bayesian Optimization in LLM Pretrainin
Arcee's MergeKit: A Toolkit for Merging Large Language Models

MOE

Tricks for Training Sparse Translation Models
ST-MoE: Designing Stable and Transferable Sparse Expert Models
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
GLaM: Efficient Scaling of Language Models with Mixture-of-Experts
GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding
OUTRAGEOUSLY LARGE NEURAL NETWORKS: THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER
DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale
Dense-to-Sparse Gate for Mixture-of-Experts
Efficient Large Scale Language Modeling with Mixtures of Experts

Multimodal

InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning
Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
LLava Visual Instruction Tuning
MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models
BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual Questions
mPLUG-Owl : Modularization Empowers Large Language Models with Multimodality
LVLM eHub: A Comprehensive Evaluation Benchmark for Large VisionLanguage Models
Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities
PaLM-E: An Embodied Multimodal Language Model
TabLLM: Few-shot Classification of Tabular Data with Large Language Models
AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling
Sora tech report
Towards General Computer Control: A Multimodal Agent for Red Dead Redemption II as a Case Study
OCR
- Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models
- Large OCR Model:An Empirical Study of Scaling Law for OCR
- ON THE HIDDEN MYSTERY OF OCR IN LARGE MULTIMODAL MODELS
PreFLMR: Scaling Up Fine-Grained Late-Interaction Multi-modal Retrievers
Many-Shot In-Context Learning in Multimodal Foundation Models
Adding Conditional Control to Text-to-Image Diffusion Models
Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs
ShowUI: One Vision-Language-Action Model for GUI Visual Agent

Resumo

A Survey of Large Language Models
Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing
Paradigm Shift in Natural Language Processing
Pre-Trained Models: Past, Present and Future
What Language Model Architecture and Pretraining objects work best for zero shot generalization
Towards Reasoning in Large Language Models: A Survey
Reasoning with Language Model Prompting: A Survey
An Overview on Language Models: Recent Developments and Outlook
A Survey of Large Language Models[6.29更新版]
Unifying Large Language Models and Knowledge Graphs: A Roadmap
Augmented Language Models: a Survey
Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey
Challenges and Applications of Large Language Models
The Rise and Potential of Large Language Model Based Agents: A Survey
Large Language Models for Information Retrieval: A Survey
AI Alignment: A Comprehensive Survey
Trends in Integration of Knowledge and Large Language Models: A Survey and Taxonomy of Methods, Benchmarks, and Applications
Large Models for Time Series and Spatio-Temporal Data: A Survey and Outlook
A Survey on Language Models for Code
Model-as-a-Service (MaaS): A Survey

大模型能力探究

In Context Learning
- LARGER LANGUAGE MODELS DO IN-CONTEXT LEARNING DIFFERENTLY
- How does in-context learning work? A framework for understanding the differences from traditional supervised learning
- Why can GPT learn in-context? Language Model Secretly Perform Gradient Descent as Meta-Optimizers
- Rethinking the Role of Demonstrations What Makes incontext learning work?
- Trained Transformers Learn Linear Models In-Context
- In-Context Learning Creates Task Vectors
- FUNCTION VECTORS IN LARGE LANGUAGE MODELS
Capacidade de emergir
- Sparks of Artificial General Intelligence: Early experiments with GPT-4
- Emerging Ability of Large Language Models
- LANGUAGE MODELS REPRESENT SPACE AND TIME
- Are Emergent Abilities of Large Language Models a Mirage?
能力评估
- IS CHATGPT A GENERAL-PURPOSE NATURAL LANGUAGE PROCESSING TASK SOLVER?
- Can Large Language Models Infer Causation from Correlation?
- Holistic Evaluation of Language Model
- Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond
- Theory of Mind May Have Spontaneously Emerged in Large Language Models
- Beyond The Imitation Game: Quantifying And Extrapolating The Capabilities Of Language Models
- Do Models Explain Themselves? Counterfactual Simulatability of Natural Language Explanations
- Demystifying GPT Self-Repair for Code Generation
- Evidence of Meaning in Language Models Trained on Programs
- Can Explanations Be Useful for Calibrating Black Box Models
- On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective
- Language acquisition: do children and language models follow similar learning stages?
- Language is primarily a tool for communication rather than thought
领域能力
- Capabilities of GPT-4 on Medical Challenge Problems
- Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine
Understanding LLM Embeddings for Regression

Prompt Tunning范式

Tunning Free Prompt
- GPT2: Language Models are Unsupervised Multitask Learners
- GPT3: Language Models are Few-Shot Learners
- LAMA: Language Models as Knowledge Bases?
- AutoPrompt: Eliciting Knowledge from Language Models
Fix-Prompt LM Tunning
- T5: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
- PET-TC(a): Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference
- PET-TC(b): PETSGLUE It's Not Just Size That Matters Small Language Models are also few-shot learners
- GenPET: Few-Shot Text Generation with Natural Language Instructions
- LM-BFF: Making Pre-trained Language Models Better Few-shot Learners
- ADEPT: Improving and Simplifying Pattern Exploiting Training
Fix-LM Prompt Tunning
- Prefix-tuning: Optimizing continuous prompts for generation
- Prompt-tunning: The power of scale for parameter-efficient prompt tuning
- P-tunning: GPT Understands Too
- WARP: Word-level Adversarial ReProgramming
LM + Prompt Tunning
- P-tunning v2: Prompt Tuning Can Be Comparable to Fine-tunning Universally Across Scales and Tasks
- PTR: Prompt Tuning with Rules for Text Classification
- PADA: Example-based Prompt Learning for on-the-fly Adaptation to Unseen Domains
Fix-LM Adapter Tunning
- LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS
- LST: Ladder Side-Tuning for Parameter and Memory Efficient Transfer Learning
- Parameter-Efficient Transfer Learning for NLP
- INTRINSIC DIMENSIONALITY EXPLAINS THE EFFECTIVENESS OF LANGUAGE MODEL FINE-TUNING
- DoRA: Weight-Decomposed Low-Rank Adaptation
Representation Tuning
ReFT: Representation Finetuning for Language Models

Timeseries LLM

TimeGPT-1
Large Models for Time Series and Spatio-Temporal Data: A Survey and Outlook
TIME-LLM: TIME SERIES FORECASTING BY REPROGRAMMING LARGE LANGUAGE MODELS
Large Language Models Are Zero-Shot Time Series Forecasters
TEMPO: PROMPT-BASED GENERATIVE PRE-TRAINED TRANSFORMER FOR TIME SERIES FORECASTING
Generative Pre-Training of Time-Series Data for Unsupervised Fault Detection in Semiconductor Manufacturing
Lag-Llama: Towards Foundation Models for Time Series Forecasting
PromptCast: A New Prompt-based Learning Paradigm for Time Series Forecasting

Quanization

AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration
LLM-QAT: Data-Free Quantization Aware Training for Large Language Models
LLM.int8() 8-bit Matrix Multiplication for Transformers at Scale
SmoothQuant Accurate and Efficient Post-Training Quantization for Large Language Models

Adversarial Attacking

Curiosity-driven Red-teaming for Large Language Models
Red Teaming Language Models with Language Models
EXPLORE, ESTABLISH, EXPLOIT: RED-TEAMING LANGUAGE MODELS FROM SCRATCH

Modelo de diálogo

LaMDA: Language Models for Dialog Applications
Sparrow: Improving alignment of dialogue agents via targeted human judgements
BlenderBot 3: a deployed conversational agent that continually learns to responsibly engage
How NOT To Evaluate Your Dialogue System: An Empirical Study of Unsupervised Evaluation Metrics for Dialogue Response Generation
DialogStudio: Towards Richest and Most Diverse Unified Dataset Collection for Conversational AI
Enhancing Chat Language Models by Scaling High-quality Instructional Conversations
DiagGPT: An LLM-based Chatbot with Automatic Topic Management for Task-Oriented Dialogue

Outros

Pretraining on the Test Set Is All You Need 哈哈作者你是懂讽刺文学的
Learnware: Small Models Do Big
The economic potential of generative AI
A PhD Student's Perspective on Research in NLP in the Era of Very Large Language Models

Expandir