Papiers AI géniaux ️
Description
Ce référentiel est une liste à jour des documents d'IA importants organisés par date de publication. Il couvre cinq domaines: la vision par ordinateur, le traitement du langage naturel, le traitement audio, l'apprentissage multimodal et l'apprentissage du renforcement. N'hésitez pas à donner à ce référentiel une étoile si vous aimez le travail.
RETENU: AIMEROU NDIAYE
Table des matières
- 2023 papiers
- Vision par ordinateur
- Traitement du langage naturel
- Traitement audio
- Apprentissage multimodal
- Apprentissage du renforcement
- Autres papiers
- 2022 papiers
- Vision par ordinateur
- Traitement du langage naturel
- Traitement audio
- Apprentissage multimodal
- Apprentissage du renforcement
- Autres papiers
- Articles historiques
Taxonomie
Pour sélectionner les articles les plus pertinents, nous avons choisi des limites subjectives en termes de nombre de citations. Chaque icône désigne ici un type de papier qui répond à l'un de ces critères.
? Document historique: plus de 10 000 citations et un impact décisif sur l'évolution de l'IA.
Document important: plus de 50 citations et résultats de pointe.
⏫ Tendance: 1 à 50 citations, document récent et innovant avec adoption croissante.
? Article important: Travail décisif qui n'était pas accompagné d'un document de recherche.
2023 papiers
Vision par ordinateur
- 01/2023: Muse: génération de texte à l'image via des transformateurs génératifs masqués (muse)
- 02/2023: Structure et synthèse vidéo guidée par le contenu avec des modèles de diffusion (GEN-1)
- 02/2023: Échelle des transformateurs de vision à 22 milliards de paramètres (VIT 22B)
- 02/2023: Ajout de contrôle conditionnel aux modèles de diffusion de texte à image (ControlNet)
- 03/2023: Visual Chatgpt: Talking, Drawing and Modice with Visual Foundation Models (visual chatgpt)
- 03/2023: Échelle GANS pour la synthèse du texte à l'image (Gigagan)
- 04/2023: Segment n'importe quoi (SAM)
- 04/2023: DINOV2: Apprendre des fonctionnalités visuelles robustes sans supervision (DINOV2)
- 04/2023: réglage de l'instruction visuelle
- 04/2023: Alignez vos latents: synthèse vidéo haute résolution avec des modèles de diffusion latente (vidéoldm)
- 04/2023: Les données synthétiques des modèles de diffusion améliorent la classification ImageNet
- 04/2023: Segmenter n'importe quoi dans les images médicales (Medsam)
- 05/2023: Gagnez votre Gan: Manipulation interactive basée sur les points sur le collecteur d'images génératifs (Draggan)
- 06/2023: Neuralangelo: Reconstruction de surface neurale haute fidélité (Neuralangelo)
- 07/2023: SDXL: Amélioration des modèles de diffusion latente pour la synthèse d'image à haute résolution (SDXL)
- 08/2023: Splatting gaussien 3D pour le rendu du terrain de radiance en temps réel
- 08/2023: Qwen-vl: un modèle polyvalent de la vision-language pour la compréhension, la localisation ... (Qwen-vl)
- ⏫ 08/2023: MVDREAM: Diffusion multi-visualités pour la génération 3D (MVDREAM)
- ⏫ 11/2023: Florence-2: Faire avancer une représentation unifiée pour une variété de tâches de vision (Florence-2)
- ⏫ 12/2023: Videopoet: Un modèle grand langage pour la génération de vidéos à tirs zéro (Videopoet)
PNL
- 01/2023: DetectGPT: Détection de texte générée par la machine zéro en utilisant la courbure de probabilité (DetectGPT)
- 02/2023: ToolFormer: les modèles de langage peuvent s'apprendre à utiliser des outils (ToolFormer)
- 02/2023: LLAMA: Modèles de langue de base ouverts et efficaces (LLAMA)
- ? 03/2023: GPT-4
- 03/2023: étincelles de l'intelligence générale artificielle: expériences précoces avec GPT-4 (GPT-4 EVAL)
- 03/2023: HuggingGpt: Résoudre des tâches AI avec Chatgpt et ses amis dans HuggingFace (Hugginggpt)
- 03/2023: Bloomberggpt: Un modèle grand langage pour la finance (Bloomberggpt)
- 04/2023: réglage des instructions avec GPT-4
- 04/2023: Agents génératifs: Simulacra interactive de l'homme (agents Gen)
- 05/2023: Rapport technique de Palm 2 (PALM-2)
- 05/2023: Arbre de pensées: résolution délibérée de problèmes avec des modèles de gros langues (TOT)
- 05/2023: Lima: moins c'est plus pour l'alignement (Lima)
- 05/2023: QLORA: Finetuning efficace des LLM quantifiés (Qlora)
- 05/2023: Voyager: un agent incarné à extrémité ouverte avec de grands modèles de langue (Voyager)
- 07/2023: TOOLLLM: faciliter les modèles de gros langues pour maîtriser plus de 16000 API réels (TOOLLLM)
- 08/2023: MetAgpt: Meta Programming for Multi-Agent Collaborative Framework (Metagpt)
- 08/2023: Code Llama: Open Foundation Models for Code (Code Llama)
- ⏫ 09/2023: RLAIF: Échelle d'apprentissage du renforcement de la rétroaction humaine avec la rétroaction de l'IA (RLAIF)
- 09/2023: Modèles de grande langue comme Optimizers (OPRO)
- ⏫ 10/2023: Eureka: conception de récompense au niveau de l'homme via le codage de modèles de grande langue (Eureka)
- ⏫ 12/2023: Découvertes mathématiques de la recherche de programme avec des modèles de grande langue (FunSearch)
Traitement audio
- 01/2023: Les modèles de langage de codec neural sont des synthétiseurs de discours (VALL-E)
- 01/2023: Musiclm: Génération de musique à partir de texte (Musiclm)
- 01/2023: Audioldm: génération de texte à audio avec des modèles de diffusion latente (Audioldm)
- 03/2023: Google USM: mise à l'échelle de la reconnaissance de la parole automatique au-delà de 100 langues (USM)
- 05/2023: Échelle de la technologie de la parole à plus de 1 000 langues (MMS)
- ⏫ 06/2023: Génération de musique simple et contrôlable (Musicgen)
- ⏫ 06/2023: Audiopalm: un grand modèle de langue qui peut parler et écouter (Audiopalm)
- ⏫ 06/2023: Voicebox: Génération de discours universelle multilingue guidée par texte à l'échelle (VoiceBox)
Apprentissage multimodal
- 02/2023: La langue n'est pas tout ce dont vous avez besoin: Aligner la perception des modèles de langue (Kosmos-1)
- 03/2023: PALM-E: Un modèle de langage multimodal incarné (Palm-E)
- 04/2023: Audiogpt: Comprendre et générer des discours, de la musique, du son et de la tête parlante (Audiogpt)
- 05/2023: ImageBind: un espace d'intégration pour les lier tous (ImageBind)
- ⏫ 07/2023: Échelle des modèles multimodaux autorégressifs: réglage de pré-formation et d'instruction (CM3Leon)
- ⏫ 07/2023: méta-transformateur: un cadre unifié pour l'apprentissage multimodal (méta-transformateur)
- ⏫ 08/2023: Seamfulm4t: Traduction machine massivement multilingue et multimodale (Samnestm4t)
Apprentissage du renforcement
- 01/2023: Maîtriser divers domaines à travers des modèles mondiaux (Dreamerv3)
- ⏫ 02/2023: mise à la terre des modèles de grands langues dans des environnements interactifs avec RL en ligne (GLAM)
- ⏫ 02/2023: Apprentissage efficace du renforcement en ligne avec des données hors ligne (RLPD)
- ⏫ 03/2023: conception de récompense avec les modèles de langue
- 05/2023: Optimisation directe des préférences: Votre modèle de langue est secrètement un modèle de récompense (DPO)
- ⏫ 06/2023: Algorithmes de tri plus rapides découverts en utilisant un apprentissage en renforcement profond (Alphadev)
- ⏫ 08/2023: Rétro-ou: Agents rétrospectifs de grande langue avec optimisation du gradient de politique (rétroformer)
Autres papiers
- 02/2023: Découverte symbolique des algorithmes d'optimisation (Lion)
- 07/2023: RT-2: Modèles de vision-action transférer les connaissances Web vers un contrôle robotique (RT-2)
- ⏫ 11/2023: Mise à l'échelle de l'apprentissage en profondeur pour la découverte des matériaux (Gnome)
- ⏫ 12/2023: Découverte d'une classe structurelle d'antibiotiques avec un apprentissage en profondeur explicable
2022 papiers
Vision par ordinateur
- 01/2022: Un convnet pour les années 2020 (convnext)
- 01/2022: les correctifs sont tout ce dont vous avez besoin (Convmixer)
- 02/2022: Block-Nerf: Synthèse de vue neuronale de grande scène évolutive (Block-Nerf)
- 03/2022: Dino: Detr avec des boîtes d'ancrage améliorées pour le débraillé pour la détection d'objets de bout en bout (Dino)
- 03/2022: Étendre vos noyaux à 31 × 31: Revisiter la grande conception du noyau dans CNNS (grand noyau CNN)
- 03/2022: Tensorf: champs de radiance tensorielle (Tensorf)
- 04/2022: MAXVIT: Transformateur de vision multi-axe (Maxvit)
- 04/2022: Génération d'images de texte en texte hiérarchique avec des fiches de clip (Dall-E 2)
- 05/2022: Modèles de diffusion de texte à image photoréaliste avec compréhension du langage profond (Imagen)
- 05/2022: GIT: un transformateur générateur d'image à texte pour la vision et la langue (GIT)
- 06/2022: CMT: Réseau neuronal convolutionnel Meet Vision Transformers (CMT)
- 07/2022: SWIN UNETR: Transformers Swin pour la segmentation sémantique des tumeurs cérébrales ... (Swin Unetr)
- 07/2022: guidage de diffusion sans classificateur
- 08/2022: Modèles de diffusion de texte à l'image à réglage fin pour la génération axée sur le sujet (Dreambooth)
- 09/2022: DreamFusion: Text-To-3D Utilisation de la diffusion 2D (DreamFusion)
- 09/2022: Make-a-video: Génération de texte à video sans données de texte (Make-a-A-video)
- 10/2022: sur la distillation des modèles de diffusion guidée
- 10/2022: LAION-5B: Un ensemble de données ouvert à grande échelle pour la formation des modèles de texte d'image de prochaine génération (LAION-5B)
- 10/2022: Imagine: Modification d'image réelle basée sur le texte avec des modèles de diffusion (imaginaire)
- 11/2022: réglage de l'invite visuelle
- 11/2022: Magic3d: Création de contenu de texte à haute résolution (Magic3d)
- 11/2022: Diffusiondet: modèle de diffusion pour la détection d'objets (Diffusiondet)
- 11/2022: instructPix2Pix: Apprendre à suivre les instructions d'édition d'image (instructPix2Pix)
- 12/2022: Personnalisation multi-concept de la diffusion du texte à l'image (diffusion personnalisée)
- 12/2022: Modèles de diffusion évolutifs avec transformateurs (DIT)
PNL
- 01/2022: Lambda: Modèles linguistiques pour les applications de dialogue (Lambda)
- 01/2022: L'incitation de la chaîne de pensées suscite un raisonnement dans les modèles de grande langue (COT)
- 02/2022: Génération de code au niveau de la compétition avec Alphacode (Alphacode)
- 02/2022: Les modèles de langage à finetuned sont des apprenants à tirs zéro (Flan)
- 03/2022: Modèles de la langue de formation pour suivre les instructions humaines avec commentaires humains (instructGpt)
- 03/2022: La formation invitée multitâche permet la généralisation des tâches (T0) à zéro-shot (T0)
- 03/2022: Formation des modèles de grande langue en calcul (chinchilla)
- 04/2022: Faites ce que je peux, pas comme je le dis: la langue de mise à la terre dans les possibilités robotiques (SayCan)
- 04/2022: GPT-NEOX-20B: Un modèle de langage autorégressif open source (GPT-Neox)
- 04/2022: PALM: Modélisation du langage à l'échelle avec voies (palmier)
- 06/2022: Au-delà du jeu d'imitation: quantifier et extrapoler les capacités de Lang ... (Big Bench)
- 06/2022: Résolution des problèmes de raisonnement quantitatif avec les modèles de langue (Minerva)
- 10/2022: React: Synergie Raisonnement et Agissant dans les modèles de langues (REACT)
- 11/2022: Bloom: un modèle de langage multilingue à accès à accès ouvert 176B (Bloom)
- ? 11/2022: Optimisation des modèles de langage pour le dialogue (Chatgpt)
- 12/2022: Les modèles de gros langues codent les connaissances cliniques (Palle Med)
Traitement audio
- 02/2022: MSLAM: Pré-formation conjointe multilingue massivement pour la parole et le texte (MSLAM)
- 02/2022: Ajouter 2022: Le premier défi de détection de synthèse audio profonde (ADD)
- 03/2022: Formation efficace des transformateurs audio avec patchout (PASST)
- 04/2022: Maestro: Représentations de texte de la parole appariées par la correspondance de modalité (Maestro)
- 05/2022: Spe:
- 06/2022: WAVLM: Pré-formation autopérisée à grande échelle pour le traitement de la parole complète (WAVLM)
- 07/2022: BIGSSL: Explorer la frontière de l'apprentissage semi-supervisé à grande échelle pour ASR (BigSSL)
- 08/2022: Mulan: une intégration conjointe de l'audio musical et du langage naturel (Mulan)
- 09/2022: Audiolm: une approche de modélisation linguistique de la génération audio (Audiolm)
- 09/2022: Audiogen: génération d'audio guidée textuellement (audiogène)
- 10/2022: Compression audio neuronale haute fidélité (Encode)
- 12/2022: Robust Reconnaissance de la parole via une faible supervision à grande échelle (Whisper)
Apprentissage multimodal
- 01/2022: BLIP: Boostrapping Language-Image Pre-Tra-Train pour la vision unifiée ... (BLIP)
- 02/2022: DATA2VEC: Un cadre général pour l'apprentissage auto-supervisé dans la parole, la vision et ... (Data2Vec)
- 03/2022: VL-adaptère: apprentissage transfert par les paramètres pour les tâches de vision et de langage (VL-adapter)
- 04/2022: Winoground: sonder des modèles de vision et de langage pour la visio-linguistique ... (Winoground)
- 04/2022: Flamingo: un modèle de langue visuelle pour l'apprentissage à quelques coups (Flamingo)
- 05/2022: un agent généraliste (Gato)
- 05/2022: COCA: Les légendes contrastives sont des modèles de fondation de texte d'image (COCA)
- 05/2022: VLMO: pré-formation de langue visuelle unifiée avec mélange de modalité-experts (VLMO)
- 08/2022: Image en tant que langue étrangère: Beit Pretoring pour toutes les tâches de vision et de vision (Beit)
- 09/2022: Pali: un modèle d'image linguistique multilingue à l'échelle conjointe (Pali)
Apprentissage du renforcement
- 01/2022: Apprendre une locomotion perceptive robuste pour les robots quadrupèdes dans la nature
- 02/2022: BC-Z: Généralisation des tâches zéro-shot avec apprentissage par imitation robotique
- 02/2022: Le champion de la champion Gran Turismo Pilotes avec un apprentissage en renforcement profond (Sophy)
- 02/2022: Contrôle magnétique des plasmas Tokamak par un apprentissage en renforcement profond
- 08/2022: Apprendre à marcher en quelques minutes en utilisant un apprentissage en renforcement profond massivement parallèle (Anymal)
- 10/2022: Découvrir des algorithmes de multiplication à matrice plus rapide avec apprentissage par renforcement (alphatenseur)
Autres papiers
- 02/2022: FourcastNet: un modèle météorologique haute résolution mondial sur les données ... (FourcastNet)
- 05/2022: Colabfold: Rendre le pliage des protéines accessible à tous (Colabfold)
- 06/2022: Mesurer et améliorer l'utilisation des informations sur les graphiques dans GNN
- 10/2022: TimesNet: modélisation temporelle de variation 2D pour l'analyse générale des séries chronologiques (TimesNet)
- 12/2022: RT-1: Transformateur de robotique pour le contrôle réel du monde à l'échelle (RT-1)
Articles historiques
- ? 1958: Perceptron: un modèle probabiliste pour le stockage et l'organisation de l'information dans le cerveau (Perceptron)
- ? 1986: Représentations d'apprentissage par des erreurs de rétro-propagation (rétro-propagation)
- ? 1986: Induction d'arbres de décision (CART)
- ? 1989: Un tutoriel sur les modèles de Markov cachés et les applications sélectionnées en reconnaissance vocale (HMM)
- ? 1989: les réseaux multicouches pour les aliments pour l'alimentation sont des approximateurs universels
- ? 1992: un algorithme de formation pour les classificateurs de marge optimaux (SVM)
- ? 1996: Prédicteurs d'ensachage
- ? 1998: l'apprentissage basé sur le gradient appliqué à la reconnaissance des documents (CNN / GTN)
- ? 2001: forêts aléatoires
- ? 2001: Un algorithme génétique multi-objectif rapide et élitiste (NSGA-II)
- ? 2003: allocation latente Dirichlet (LDA)
- ? 2006: Réduire la dimensionnalité des données avec les réseaux de neurones (Autoencoder)
- ? 2008: Visualiser les données à l'aide de T-SNE (T-SNE)
- ? 2009: ImageNet: une base de données d'images hiérarchiques à grande échelle (ImageNet)
- ? 2012: Classification ImageNet avec des réseaux de neurones convolutionnels profonds (Alexnet)
- ? 2013: Estimation efficace des représentations de mots dans l'espace vectoriel (Word2Vec)
- ? 2013: Bayes variationnel en codage (VAE)
- ? 2014: réseaux adversaires génératifs (GAN)
- ? 2014: décrochage: un moyen simple d'empêcher les réseaux de neurones de sur-ajustement (décrochage)
- ? 2014: séquence à l'apprentissage des séquences avec les réseaux de neurones
- ? 2014: Traduction de machine neurale en apprenant conjointement à aligner et à traduire (RNNSEARCH-50)
- ? 2014: Adam: une méthode d'optimisation stochastique (Adam)
- ? 2015: Normalisation par lots: accélérer la formation profonde du réseau en réduisant le CoV interne ... (Batchnorm)
- ? 2015: Aller plus approfondie avec les convolutions (création)
- ? 2015: Contrôle au niveau de l'homme par l'apprentissage en renforcement profond (réseau Deep Q)
- ? 2015: RA-CNN plus rapide: vers la détection d'objets en temps réel avec les réseaux de propositions de région (plus rapide R-CNN)
- ? 2015: U-Net: Réseaux de convolution pour la segmentation biomédicale (U-NET)
- ? 2015: Apprentissage résiduel profond pour la reconnaissance d'image (RESNET)
- ? 2016: Vous ne regardez qu'une seule fois: une détection d'objets unifiée en temps réel (YOLO)
- ? 2017: l'attention est tout ce dont vous avez besoin (Transformer)
- ? 2018: Bert: pré-formation des transformateurs bidirectionnels profonds pour la compréhension du langage (Bert)
- ? 2020: Les modèles linguistiques sont des apprenants à petit coup (GPT-3)
- ? 2020: Modèles probabilistes de diffusion de débrassement (DDPM)
- ? 2020: Une image vaut 16x16 mots: Transformers pour la reconnaissance d'image à l'échelle (VIT)
- ? 2021: Prédiction de structure protéique très précise avec Alphafold (Alphafold)
- ? 2022: Chatgpt: Optimisation des modèles de langue pour le dialogue (Chatgpt)