Papéis AI incríveis ️
Descrição
Este repositório é uma lista atualizada de artigos de IA significativos organizados até a data da publicação. Ele abrange cinco campos: visão computacional, processamento de linguagem natural, processamento de áudio, aprendizado multimodal e aprendizado de reforço. Sinta -se à vontade para dar a este repositório uma estrela se você gosta do trabalho.
Manter: Aimerou Ndiaye
Índice
- 2023 Documentos
- Visão computacional
- Processamento de linguagem natural
- Processamento de áudio
- Aprendizagem multimodal
- Aprendizagem de reforço
- Outros papéis
- 2022 Documentos
- Visão computacional
- Processamento de linguagem natural
- Processamento de áudio
- Aprendizagem multimodal
- Aprendizagem de reforço
- Outros papéis
- Artigos históricos
Taxonomia
Para selecionar os artigos mais relevantes, escolhemos limites subjetivos em termos de número de citações. Cada ícone aqui designa um tipo de papel que atende a um desses critérios.
? Artigo histórico: mais de 10 mil citações e um impacto decisivo na evolução da IA.
Artigo importante: mais de 50 citações e resultados de última geração.
⏫ Trendência: 1 a 50 citações, artigo recente e inovador com crescente adoção.
? Artigo importante: trabalho decisivo que não foi acompanhado por um trabalho de pesquisa.
2023 Documentos
Visão computacional
- 01/2023: Muse: geração de texto para imagens via transformadores generativos mascarados (Muse)
- 02/2023: Síntese de vídeo guiada por estrutura e conteúdo com modelos de difusão (Gen-1)
- 02/2023: Scaling Vision Transformers para 22 bilhões de parâmetros (Vit 22b)
- 02/2023: Adicionando controle condicional aos modelos de difusão de texto à imagem (ControlNet)
- 03/2023: Visual Chatgpt: conversando, desenhando e editando com modelos de fundação visual (visual chatgpt)
- 03/2023: Gans Gans para síntese de texto para imagem (Gigagan)
- 04/2023: Segmento de qualquer coisa (Sam)
- 04/2023: DINOV2: Aprendendo recursos visuais robustos sem supervisão (DINOV2)
- 04/2023: Ajuste de instrução visual
- 04/2023: Alinhe seus latentes: síntese de vídeo de alta resolução com modelos de difusão latente (videoldm)
- 04/2023: Dados sintéticos de modelos de difusão melhora a classificação do ImageNet
- 04/2023: Segmento de qualquer coisa em imagens médicas (Medsam)
- 05/2023: arraste seu gan: manipulação interativa baseada em pontos no coletor de imagem generativa (draggan)
- 06/2023: Neuralangelo: Reconstrução de superfície neural de alta fidelidade (Neuralangelo)
- 07/2023: SDXL: Melhorando os modelos de difusão latente para a síntese de imagem de alta resolução (SDXL)
- 20/08/2023: Splating gaussiano 3D para renderização de campo de radiação em tempo real
- 08/2023: QWEN-VL: Um modelo versátil da linguagem da visão para compreensão, localização ... (Qwen-VL)
- ⏫ 08/2023: MVDREAM: Difusão de várias vistas para a geração 3D (MVDReam)
- ⏫ 11/2023: Florence-2: Avançando uma representação unificada para uma variedade de tarefas de visão (Florence-2)
- ⏫ 12/2023: Videopoet: Um grande modelo de idioma para geração de vídeo zero-shot (videopoet)
NLP
- 01/2023: DetectGPT: Detecção de texto gerada por máquina zero-tiro usando a curvatura de probabilidade (DetectGPT)
- 02/2023: Ferramentas: Modelos de idiomas podem se ensinar a usar ferramentas (Ferramentas)
- 02/2023: LLAMA: Modelos de idiomas de fundação abertos e eficientes (llama)
- ? 03/2023: GPT-4
- 03/2023: Sparks of Artificial General Intelligence: Experiências iniciais com GPT-4 (GPT-4 Eval)
- 03/2023: HuggingGPT: resolvendo tarefas de IA com ChatGPT e seus amigos em Huggingface (HuggingGPT)
- 03/2023: Bloomberggpt: Um grande modelo de idioma para finanças (Bloomberggpt)
- 04/2023: Ajuste de instrução com GPT-4
- 04/2023: Agentes generativos: simulacra interativo de humanos (agentes gen)
- 05/2023: Palm 2 Relatório Técnico (Palm-2)
- 05/2023: Árvore dos pensamentos: resolução deliberada de problemas com grandes modelos de idiomas (TOT)
- 05/2023: LIMA: menos é mais para o alinhamento (Lima)
- 05/2023: Qlora: Finetuning eficiente de LLMs quantizados (Qlora)
- 20/05/2023: Voyager: um agente incorporado aberto com grandes modelos de idiomas (Voyager)
- 07/2023: Toolllm: facilitando grandes modelos de idiomas para dominar mais de 16000 APIs do mundo real (Toolllm)
- 20/08/2023: Metagpt: Meta Programming for Multi-Agent Collaborative Framework (MetaGPT)
- 08/2023: Código LLAMA: Modelos de fundação aberta para código (código LLAMA)
- ⏫ 09/2023: RLAIF: Escalando o aprendizado de reforço com o feedback humano com feedback de IA (RLAIF)
- 09/2023: Modelos de idiomas grandes como otimizadores (OPRO)
- ⏫ 10/2023: Eureka: Design de recompensa em nível de humano através de codificação de grandes modelos de idiomas (Eureka)
- ⏫ 12/2023: Descobertas matemáticas da pesquisa de programas com grandes modelos de idiomas (FunSearch)
Processamento de áudio
- 01/2023: Os modelos de idiomas de codec neural são texto zero para sintetizadores de fala (Vall-e)
- 01/2023: Musiclm: Gerando músicas do texto (MusiclM)
- 01/2023: Audioldm: geração de texto para Audio com modelos de difusão latente (Audioldm)
- 03/2023: Google USM: Escalando o reconhecimento automático de fala além de 100 idiomas (USM)
- 05/2023: Escalando a tecnologia de fala para mais de 1.000 idiomas (MMS)
- ⏫ 06/2023: geração de música simples e controlável (MusicGen)
- ⏫ 06/2023: Audiopalm: um grande modelo de idioma que pode falar e ouvir (Audiopalm)
- ⏫ 06/2023: caixa de voz: geração universal de fala universal multilíngue guiada por texto em escala (caixa de voz)
Aprendizagem multimodal
- 02/2023: Linguagem não é tudo o que você precisa: alinhar a percepção com os modelos de idiomas (KOSMOS-1)
- 03/2023: Palm-e: um modelo de linguagem multimodal incorporada (Palm-E)
- 04/2023: AudioGPT: Entendendo e gerando fala, música, som e Head Head (AudioGPT)
- 05/2023: ImageBind: Um espaço de incorporação para vincular todos eles (ImageBind)
- ⏫ 07/2023: Modelos multimodais autorregressivos de escala: pré-treinamento e ajuste de instrução (CM3Leon)
- ⏫ 07/2023: Meta-transformador: Uma estrutura unificada para aprendizado multimodal (meta-transformador)
- ⏫ 08/2023: Seamlessm4t: Translação massivamente multilíngue e multimodal da máquina (SeamlessM4T)
Aprendizagem de reforço
- 01/2023: Dominando diversos domínios por meio de modelos mundiais (Dreamerv3)
- ⏫ 02/2023: Aumentando grandes modelos de linguagem em ambientes interativos com RL online (glam)
- ⏫ 02/2023: Aprendizagem de reforço on -line eficiente com dados offline (RLPD)
- ⏫ 03/2023: Design de recompensa com modelos de idiomas
- 05/2023: Otimização de preferência direta: seu modelo de idioma é secretamente um modelo de recompensa (DPO)
- ⏫ 06/2023: Algoritmos de classificação mais rápidos descobertos usando o aprendizado de reforço profundo (Alphadev)
- ⏫ 20/08/2023: Retroformer: agentes de grandes idiomas retrospectivos com otimização de gradiente de políticas (retroformador)
Outros papéis
- 02/2023: Descoberta simbólica de algoritmos de otimização (leão)
- 07/2023: RT-2: Modelos de ação de visão de visão transferem conhecimento da web para controle robótico (RT-2)
- ⏫ 11/2023: Escalando o aprendizado profundo para a descoberta de materiais (gnome)
- ⏫ 12/2023: Descoberta de uma classe estrutural de antibióticos com aprendizado profundo explicável
2022 Documentos
Visão computacional
- 01/2022: um convnet para a década de 2020 (ConvNext)
- 01/2022: os patches são tudo o que você precisa (convmixer)
- 02/2022: Block -nerf: Síntese escalável de vista neural de cena grande (bloco-energia)
- 20/03/2022: DINO: Detrr com caixas de ancoragem aprimoradas para detecção de objetos de ponta a ponta (DINO)
- 03/2022: Escalando seus grãos para 31 × 31: revisitando o design grande do kernel nos CNNs (grande kernel CNN)
- 03/2022: Tensorf: Campos de Radiance Tensorial (Tensorf)
- 04/2022: Maxvit: Transformador de Visão Multi-Axis (Maxvit)
- 04/2022: Geração de imagem condicional hierárquica com latentes de clipes (Dall-e 2)
- 05/2022: Modelos de difusão de texto para imagem fotorrealista com compreensão profunda da linguagem (Imagen)
- 05/2022: Git: um transformador de imagem em texto generativo para visão e idioma (Git)
- 06/2022: CMT: Rede Neural Convolucional Meet Transformers Vision (CMT)
- 07/2022: SWIN UNRETRA: Transformadores Swin para segmentação semântica de tumores cerebrais ... (Swin UNER)
- 07/2022: orientação de difusão sem classificador
- 20/08/2022: Modelos de difusão de texto para imagem de ajuste fino para geração acionada por assuntos (Dreambooth)
- 09/2022: Dreamfusion: Text-to-3D usando difusão 2D (Dreamfusion)
- 09/2022: Make-a-Video: geração Text-to-Video sem dados de texto-vídeo (Make-a-video)
- 10/2022: Sobre a destilação de modelos de difusão guiada
- 10/2022: Laion-5b: Um conjunto de dados em larga escala aberto para treinamento de modelos de imagem de imagem da próxima geração (Laion-5b)
- 10/2022: Imagic: Edição de imagem real baseada em texto com modelos de difusão (Imagic)
- 11/2022: Tuning Visual Prompt
- 11/2022: Magic3d: criação de conteúdo de texto para 3D de alta resolução (Magic3D)
- 11/2022: DiffusionDet: Modelo de difusão para detecção de objetos (DiffusionDet)
- 11/2022: Instructpix2pix: Aprendendo a seguir instruções de edição de imagem (InstructPix2Pix)
- 12/2022: Personalização de vários conceitos da difusão de texto a imagem (difusão personalizada)
- 12/2022: modelos de difusão escalável com transformadores (DIT)
NLP
- 01/2022: Lambda: Modelos de idiomas para aplicativos de diálogo (Lambda)
- 20/01/2022: Cadeia de pensamento provocando o raciocínio em grandes modelos de idiomas (COT)
- 02/2022: Geração de código no nível da competição com alfacode (alfacode)
- 02/2022: Modelos de idiomas Finetuned são aprendizes de tiro zero (flan)
- 03/2022: Treinando modelos de idiomas para seguir as instruções humanas com feedback humano (InstructGPT)
- 20/03/2022: O treinamento solicitado por várias tarefas permite a generalização da tarefa zero-shot (T0)
- 03/2022: Treinamento Compute-Otimal Language Models (Chinchilla)
- 04/2022: faça o que eu puder, não como eu disse: linguagem de base em preços robóticos (SayCan)
- 20/04/2022: GPT-Neox-20B: Um modelo de linguagem autoregressiva de código aberto (GPT-Neox)
- 04/2022: Palm: Modelagem de linguagem de dimensionamento com vias (Palm)
- 06/2022: Além do jogo de imitação: quantificando e extrapolando as capacidades de Lang ... (bancada)
- 06/2022: Resolvendo problemas de raciocínio quantitativo com modelos de idiomas (Minerva)
- 10/2022: React: Sinergizando o raciocínio e a atuação em modelos de idiomas (React)
- 11/2022: Bloom: um modelo de linguagem multilíngue de acesso aberto de 176b-parâmetros (Bloom)
- ? 11/2022: Otimizando modelos de linguagem para diálogo (chatgpt)
- 12/2022: Modelos de idiomas grandes codificam o conhecimento clínico (Med-Palm)
Processamento de áudio
- 20/02/2022: MSLAM: Pré-treinamento em articulações multilíngues para a fala e o texto (MSlam)
- 02/2022: Adicione 2022: O primeiro desafio de detecção de síntese profunda de áudio (add)
- 03/2022: Treinamento eficiente de transformadores de áudio com patchout (passt)
- 04/2022: Maestro: representações de texto de fala correspondentes por meio de correspondência de modalidade (maestro)
- 20/05/2022: discurso 5: pré-treinamento do codificador-moderno-modal unificado para a linguagem falada ... (discurso5)
- 20/06/2022: WAVLM: Pré-treinamento auto-supervisionado em larga escala para processamento de fala da pilha completa (WAVLM)
- 07/2022: BIGSSL: Explorando a fronteira de aprendizado semi-supervisionado em larga escala para ASR (BIGSSL)
- 08/2022: Mulan: uma incorporação conjunta de áudio musical e linguagem natural (Mulan)
- 09/2022: Audiolm: uma abordagem de modelagem de idiomas para a geração de áudio (Audiolm)
- 09/2022: Audiogen: Geração de áudio guiada textual (Audiogen)
- 10/2022: Compressão de áudio neural de alta fidelidade (Codec)
- 12/2022: Reconhecimento robusto de fala por meio de supervisão fraca em larga escala (Whisper)
Aprendizagem multimodal
- 01/2022: BLIP: BOOSTAPPING LANGUING-NAIGE PRÉ-TREINA
- 02/2022: Data2vec: Uma estrutura geral para aprendizado auto-supervisionado em fala, visão e ... (Data2vec)
- 03/2022: VL-Adapter: Learning de transferência de parâmetro-eficiência para tarefas de visão e linguagem (VL-Adapter)
- 04/2022: WinogRound: Visão de investigação e modelos de idiomas para visio-linguísticos ... (WinogRound)
- 04/2022: Flamingo: um modelo de linguagem visual para aprendizado de poucos anos (flamingo)
- 05/2022: Um agente generalista (Gato)
- 05/2022: Coca: Legendadores contrastantes são modelos de base de texto de imagem (coca)
- 05/2022: VLMO: pré-treinamento unificado da linguagem da visão com expperts da mistura de modalidade (VLMO)
- 08/2022: Imagem como uma língua estrangeira: Beit pré-treinamento para todas as tarefas de visão e linguagem da visão (BEIT)
- 09/2022: Pali: Um modelo de imagem de linguagem multilíngue em conjunto (PALI)
Aprendizagem de reforço
- 01/2022: Aprendendo locomoção perceptiva robusta para robôs quadrúpedes na natureza
- 02/2022: BC-Z: Generalização de tarefas com tiro zero com imitação robótica Aprendizagem
- 02/2022: Drivers de Gran Turismo, campeão de superfície de superfície profunda com aprendizado de reforço profundo (Sophy)
- 02/2022: Controle magnético dos plasmas de tokamak por meio de aprendizado de reforço profundo
- 08/2022: Aprendendo a andar em minutos usando o aprendizado de reforço profundo massivamente paralelo (Anymal)
- 10/2022: Descobrindo algoritmos de multiplicação de matriz mais rápidos com aprendizado de reforço (alfatensor)
Outros papéis
- 02/2022: FourcastNet: um modelo climático global de alta resolução de dados ... (FourcastNet)
- 05/2022: Colabfold: Tornando o dobramento de proteínas acessível a todos (Colabfold)
- 06/2022: Medindo e melhorando o uso de informações gráficas no GNN
- 10/2022: TimesNet: Modelagem temporal de 2d-variação para análise geral de séries temporais (timesnet)
- 12/2022: RT-1: Transformador de robótica para controle do mundo real em escala (RT-1)
Artigos históricos
- ? 1958: perceptron: um modelo probabilístico para armazenamento e organização de informações no cérebro (perceptron)
- ? 1986: Representações de aprendizagem por erros de propagação de volta (retropacagação)
- ? 1986: Indução de árvores de decisão (carrinho)
- ? 1989: Um tutorial sobre modelos Hidden Markov e aplicativos selecionados em reconhecimento de fala (HMM)
- ? 1989: Redes de feedward multilayer são aproximantes universais
- ? 1992: Um algoritmo de treinamento para classificadores de margem ideais (SVM)
- ? 1996: Preditores de ensacamento
- ? 1998: Aprendizagem baseada em gradiente aplicada ao reconhecimento de documentos (CNN/GTN)
- ? 2001: florestas aleatórias
- ? 2001: Um algoritmo genético multiobjetivo rápido e elitista (NSGA-II)
- ? 2003: Alocação latente de Dirichlet (LDA)
- ? 2006: reduzindo a dimensionalidade dos dados com redes neurais (autoencoder)
- ? 2008: Visualizando dados usando T-SNE (T-SNE)
- ? 2009: ImageNet: um banco de dados de imagem hierárquica em larga escala (imagenet)
- ? 2012: Classificação ImageNet com profundas redes neurais convolucionais (Alexnet)
- ? 2013: Estimativa eficiente de representações de palavras no espaço vetorial (Word2vec)
- ? 2013: Bayes Variational (VAE) de codificação automática (VAE)
- ? 2014: Redes adversárias generativas (GAN)
- ? 2014: abandono: uma maneira simples de impedir que as redes neurais exageram (abandono)
- ? 2014: sequência para seqüência de aprendizado com redes neurais
- ? 2014: Tradução da máquina neural aprendendo em conjunto a alinhar e traduzir (RNNSearch-50)
- ? 2014: Adam: um método para otimização estocástica (Adam)
- ? 2015: Normalização em lote: acelerando o treinamento profundo da rede, reduzindo o COV interno ... (BatchNorm)
- ? 2015: indo mais profundamente com convoluções (INFECPEÇÃO)
- ? 2015: Controle no nível humano através do aprendizado de reforço profundo (Deep Q Network)
- ? 2015: mais rápido R-CNN: em direção à detecção de objetos em tempo real com redes de propostas de região (R-CNN mais rápido)
- ? 2015: u-net: redes convolucionais para segmentação de imagem biomédica (rede U)
- ? 2015: aprendizado residual profundo para reconhecimento de imagem (resnet)
- ? 2016: você olha apenas uma vez: Unified, detecção de objetos em tempo real (YOLO)
- ? 2017: Atenção é tudo o que você precisa (transformador)
- ? 2018: Bert: pré-treinamento de transformadores bidirecionais profundos para entendimento de idiomas (BERT)
- ? 2020: Modelos de idiomas são poucos alunos (GPT-3)
- ? 2020: Modelos probabilísticos de difusão de denoising (DDPM)
- ? 2020: Uma imagem vale 16x16 palavras: Transformers para reconhecimento de imagem em escala (VIT)
- ? 2021: Previsão de estrutura de proteínas altamente precisa com alfafold (alfafold)
- ? 2022: chatgpt: otimizando modelos de linguagem para diálogo (chatgpt)