Téléchargement Generative AI Tutorial - Téléchargement de code source Generative AI Tutorial

Generative AI Tutorial

Autre code source

1.0.0

Télécharger

Feuille de route générative AI

Un guide d'apprentissage subjectif pour la recherche générative d'IA, y compris la liste organisée des articles et des projets

L'IA générative est un sujet brûlant aujourd'hui et cette feuille de route est conçue pour aider les débutants à acquérir rapidement les connaissances de base et à trouver des ressources utiles de l'IA générative. Même les experts sont invités à se référer à cette feuille de route pour rappeler les anciennes connaissances et développer de nouvelles idées.

Tableau de contenu

Connaissances de base
- Réseaux de neurones Inférence et formation
- Architecture transformateur
- Modèles basés sur un transformateur commun
- Divers
Modèles de grande langue (LLMS)
- Pré-formation et affinage
- Incitation
- Évaluation
- Faire face à un long contexte
- Amende efficace
- Fusion de modèles
- Génération efficace
- Modification des connaissances
- Agents alimentés par LLM
- Résultats
- Défis ouverts
Modèles de diffusion
- Génération d'images
- Génération de vidéos
- Génération audio
- Pré-formation et affinage
- Évaluation
- Génération efficace
- Modification des connaissances
- Défis ouverts
Grands modèles multimodaux (LMM)
- Architectures de modèle
- Vers des agents incarnés
- Défis ouverts
Au-delà des transformateurs
- Paramètres structurés implicitement
- Nouvelles architectures de modèle

Connaissances de base

Cette section devrait vous aider à apprendre ou à regagner les connaissances de base des réseaux de neurones (par exemple, rétro-propagation), vous familiariser avec l'architecture du transformateur et décrire certains modèles communs basés sur le transformateur.

Réseaux de neurones Inférence et formation

Êtes-vous très familier avec les structures de réseau neuronal classiques suivantes?

Perceptron multi-couches (MLP)
Réseau neuronal convolutionnel (CNN)
Réseau neuronal récurrent (RNN)

Si c'est le cas, vous devriez pouvoir répondre à ces questions:

Pourquoi les CNN fonctionnent-ils mieux que les MLP sur les images?
Pourquoi les RNN fonctionnent-ils mieux que les MLP sur les données de la série temporelle?
Quelle est la différence entre GRU et LSTM?

La rétropropagation (BP) est la base de la formation NN. Vous ne serez pas un expert en IA si vous ne comprenez pas BP . Il existe de nombreux manuels et tutoriels en ligne qui enseignent BP, mais malheureusement, la plupart d'entre eux ne présentent pas de formules sous des formes vectorisées / tenorisées. La formule BP d'une couche NN est en effet aussi soignée que sa formule de passe avant. C'est exactement ainsi que BP est implémenté et doit être mis en œuvre. Pour comprendre BP, veuillez lire les documents suivants:

Réseaux de neurones et apprentissage en profondeur [Chapitre 3.2 en particulier 3.2.6]
MEPROP: Propagation du dos sparsifiée pour l'apprentissage en profondeur accéléré avec un sur-ajustement réduit (ICML 2017) [Section 2.1]
RESPROP: réutiliser la rétropropagation de la réduction (CVPR 2020) [Section 3.1]

Si vous comprenez BP, vous devriez être en mesure de répondre à ces questions:

Comment décrirez-vous la PA d'une couche convolutionnelle?
Quel est le rapport entre le coût informatique (c'est-à-dire le nombre d'opérations de points flottants) entre la passe avant et la passe arrière d'une couche dense?
Comment décrirez-vous le BP d'un MLP avec deux couches denses partageant la même matrice de poids?

Architecture transformateur

Le transformateur est l'architecture de base des grands modèles génératifs existants. Il est nécessaire de comprendre chaque composant du transformateur. Veuillez lire les documents suivants:

L'attention est tout ce dont vous avez besoin (Neirips 2017) [papier d'origine]
Explicateur de transformateur: apprentissage interactif des modèles générateurs de texte [un tutoriel interactif]
Une image vaut 16x16 mots: transformateurs pour la reconnaissance d'image à l'échelle (ICLR 2021) [Transformateur de vision]
Traduction de machine neurale avec un transformateur et des keras [grande explication de l'attention multi-tête (MHA)]
Les flops d'un bloc de transformateur [pratiquons le calcul des flops]
Décodage du transformateur rapide: une tête d'écriture est tout ce dont vous avez besoin [ATTENTION multi-Quey (MQA)]
GQA: Formation des modèles de transformateurs multi-redes généralisés à partir de points de contrôle multi-têtes [Attention à requête groupée (GQA)]
Transformateur amélioré avec une position rotative Incorpore [Comprendre l'intégration de position]
Incorporation rotative: une révolution relative [comprendre l'incorporation de position]
Enseignant forçant par rapport à l'échantillonnage programmé vs mode normal [enseignant forçant la formation des transformateurs]
Flexgen: inférence générative à haut débit de modèles de grands langues avec un seul GPU [voir la section 3 - Inférence générative pour apprendre comment la génération de LLMS PEFORM basée sur le cache KV]
Encodage de position contextuelle: apprendre à compter ce qui est important [codage positionnel dépendant du contexte]

Si vous comprenez les transformateurs, vous devriez être en mesure de répondre à ces questions:

Quels sont les avantages et les inconvénients des tranformes par rapport aux RNN？ (simultanément assister, entraînement parallélisme, complexité)
Pouvez-vous caculer les flops de GQA? Voyez quand se dégrade-t-il en MHA et MQA?
Quelle est la motivation de la MQA et du GQA?
À quoi ressemble le masque d'attention causal et pourquoi?
Comment décrirez-vous la formation des transformateurs uniquement sur le décodeur étape par étape?
Pourquoi la corde est-elle meilleure que le codage positionnel sinusoïdal?

Modèles basés sur un transformateur commun

Apprendre des modèles visuels transférables de la supervision du langage naturel [Clip]
Propriétés émergentes dans les transformateurs de vision auto-supervisés (ICCV 2021) [Dino]
Les autoencodeurs masqués sont des apprenants de vision évolutifs (CVPR 2022) [MAE]
Échelle de la vision avec un mélange clairsemé d'experts (Neirips 2021) [MOE]
Mélange de dépassement: allocation dynamiquement du calcul dans les modèles de langage basés sur les transformateurs [MOD]

Divers

Einsum est facile et utile [un excellent tutoriel pour utiliser Einsum / Einops]
L'ouverture de l'ouverture est essentielle pour l'intelligence surhumaine artificielle (ICML 2024) [Réflexions sur la réalisation de l'IA surhumaine]
Niveaux d'AGI pour l'opérationnalisation des progrès sur le chemin de l'AGI

Modèles de grande langue (LLMS)

Les LLM sont des transformateurs. Ils peuvent être classés en encodeur uniquement, encodeur encodeur et en architectures de décodeur uniquement, comme le montre l'arbre évolutionnaire LLM ci-dessous [source d'image]. Vérifiez les documents marquants de LLMS.

Arbre évolutif LLM

Le modèle de l'encodeur peut être utilisé pour extraire les caractéristiques de la phrase mais manque de puissance générative. Les modèles d'encodeur-décodeur et de décodeur sont utilisés pour la génération de texte. En particulier, la plupart des LLM existantes préfèrent les structures de décodeur uniquement en raison de la puissance de repsession plus forte. Intuitivement, les modèles d'encodeur peuvent être considérés comme une version clairsemée des modèles de décodeur uniquement et les informations se décomposent davantage d'un encodeur au décodeur. Vérifiez ce document pour plus de détails.

Pré-entraînement et finetun

Les LLM sont généralement pré-entraînées à partir de milliards de jetons de texte par des éditeurs de modèles pour intérioriser la structure du langage naturel. Les développeurs du modèle d'aujourd'hui mènent également des réglages pédagogiques et des renforts de l'apprentissage de la rétroaction humaine (RLHF) pour enseigner au modèle à suivre les instructions humaines et générer des réponses alignées sur la préférence humaine. Les utilisateurs peuvent ensuite télécharger le modèle publié et Finetune It sur de petits ensembles de données personnels (par exemple, la boîte de dialogue du film). En raison de l'énorme quantité de données, la pré-formation nécessite des ressources informatiques massives (par exemple, plus de milliers de GPU), ce qui est inabordable par les individus. D'un autre côté, le réglage fin est moins gourmand en ressources et peut être fait avec quelques GPU.

Les documents suivants peuvent vous aider à comprendre le processus de pré-formation et de réglage fin:

Bert: pré-formation des transformateurs bidirectionnels profonds pour la compréhension du langage [pré-formation et finetun de LLMS uniquement encodeur]
Échelle des modèles de langue au fin des instructions [Finetuning de pré-formation et pédagogique]
Illustrer l'apprentissage du renforcement de la rétroaction humaine (RLHF)
Les modèles de langue sont des apprenants à quelques coups [LLMS uniquement du décodeur] [中文导读 par 李沐]

Plus de tutoriels peuvent être trouvés ici.

Incitation

Les techniques d'incitation pour les LLM impliquent la fabrication de texte d'entrée d'une manière qui guide le modèle pour générer des réponses ou des sorties souhaitées. Voici les ressources utiles pour vous aider à rédiger de meilleures invites:

[Dair.ai] Guide d'ingénierie rapide
Invites impressionnantes de chatppt - Une collection d'exemples rapides à utiliser avec le modèle Chatgpt
Imposition délibérative impressionnante - Comment demander aux LLM pour produire un raisonnement fiable et prendre des décisions réactives
AutoPropost - Une méthode automatisée basée sur la recherche guidée par un gradient pour créer des invites pour un ensemble diversifié de tâches NLP.

Évaluation

Les outils d'évaluation pour les modèles de grands langues aident à évaluer leurs performances, leurs capacités et leurs limites entre différentes tâches et ensembles de données. Voici quelques stratégies d'évaluation courantes:

Métriques d'évaluation automatiques : ces mesures évaluent automatiquement les performances du modèle sans intervention humaine. Les mesures courantes comprennent:
- BLEU: mesure la similitude entre le texte généré et le texte de référence basé sur le chevauchement N-gram.
- Rouge: évalue le résumé de texte en comparant les grammes de N qui se chevauchent entre les résumés générés et de référence.
- Perplexité: mesure dans quelle mesure un modèle de langue prédit un échantillon de texte. La perplexité plus faible indique de meilleures performances. Il équivaut à l'exponentiation de l'entropie croisée entre les données et les prédictions du modèle.
- Score F1: mesure l'équilibre entre la précision et le rappel dans les tâches comme la classification du texte ou la reconnaissance des entités nommées.
Évaluation humaine : le jugement humain est essentiel pour évaluer la qualité du texte généré de manière approfondie. Les méthodes d'évaluation humaine courantes comprennent:
- Évaluations humaines : le taux des annotateurs humains a généré du texte basé sur des critères tels que la maîtrise, la cohérence, la pertinence et la grammaticalité.
- Plateformes de crowdsourcing : des plates-formes comme Amazon Mechanical Turc ou la figure huit facilitent l'évaluation humaine à grande échelle par des annotations de crowdsourcing.
- Évaluation des experts : les experts du domaine évaluent les résultats du modèle pour évaluer leur aptitude à des applications ou des tâches spécifiques.
Ensembles de données de référence : les ensembles de données standardisés permettent une comparaison équitable des modèles entre différentes tâches et domaines. Les exemples incluent:
- Triviaqa: un ensemble de données de défi à grande échelle à grande échelle pour la compréhension de la lecture
- Hellaswag: Une machine peut-elle vraiment terminer votre phrase?
- GSM8K: Formation des vérificateurs pour résoudre les problèmes de mots mathématiques
- Une liste complète peut être trouvée ici
Outils d'analyse du modèle: les outils d'analyse du comportement et des performances du modèle comprennent:
- Interprétabilité automatisée - Code de génération, simulant et score automatiquement des explications du comportement des neurones
- Visualisation LLM - Visualiser les LLM à bas niveau.
- Analyse de l'attention - Analyser les cartes d'attention de Bert Transformer.
- Visionneuse de neurones - outil pour visualiser les activations et explications des neurones.

Une liste complète peut être trouvée ici

Les cadres d'évaluation standard pour les LLM existants comprennent:

LM-Evaluation-Garness - Un cadre pour l'évaluation à quelques coups des modèles linguistiques.
LightEval - une suite d'évaluation LLM légère que le visage étreint utilise en interne.
OLMO-EVAL - Un référentiel pour évaluer les modèles de langage ouvert.
Instruct-Eval - Ce référentiel contient du code pour évaluer quantitativement des modèles réglés par l'instruction tels que l'alpaca et le flan-T5 sur les tâches maintenues.

Faire face à un long contexte

Faire face à de longs contextes pose un défi pour les modèles de langue importants en raison de limitations de mémoire et de capacité de traitement. Les techniques existantes comprennent:

Transformers efficaces
- LongFormer: le transformateur à long document
- Réformateur: le transformateur efficace (ICLR 2020)
Modèles d'état d'espace
- Les transformateurs sont RNNS: Transformers autorégressifs rapides avec une attention linéaire (ICML 2020)
- Repenser l'attention avec les artistes
Extrapolation de longueur
- Mamba: modélisation de séquences linéaires avec des espaces d'état sélectifs
- Roformer: transformateur amélioré avec une position rotative incorporation
- YARN: Extension de fenêtre de contexte efficace des grands modèles de langue
Mémoire à long terme
- MemoryBank: Amélioration des modèles de grandes langues avec mémoire à long terme
- Lifère la capacité d'entrée de longueur infinie pour les modèles de langage à grande échelle avec un système de mémoire auto-contrôlée

Une liste complète peut être trouvée ici

Finetunage efficace

Les méthodes de réglage fin et économes par les paramètres (PEFT) permettent une adaptation efficace de grands modèles pré-entraînés à diverses applications en aval en affinant uniquement un petit nombre de paramètres (supplémentaires) au lieu de tous les paramètres du modèle:

Réglage rapide: la puissance de l'échelle pour un réglage rapide économe en paramètres
Préfixe Tuning: Préfixe-Tuning: Optimiser les invites continues pour la génération
Lora: Lora: Adaptation de faible rang des modèles de grandes langues
Vers une vision unifiée de l'apprentissage du transfert économe en paramètres
Lora apprend moins et oublie moins

Plus de travaux peuvent être trouvés dans la collection de papier PEFT de HuggingFace et il est fortement recommandé de s'entraîner avec HuggingFace PEFT API.

Fusion de modèles

La fusion du modèle fait référence à la fusion de deux LLM ou plus formées sur différentes tâches dans un seul LLM. Cette technique vise à tirer parti des forces et des connaissances de différents modèles pour créer un modèle plus robuste et plus capable. Par exemple, un LLM pour la génération de code et un autre LLM pour la résolution de prolem mathématiques peuvent être fusionnés afin que le modèle fusionné soit capable de faire à la fois la génération de code et la résolution de problèmes mathématiques.

La fusion du modèle est intrigante car elle peut être réalisée efficacement avec des algorithmes très simples et bon marché (par exemple, combinaison linéaire de poids du modèle). Voici quelques articles représentatifs et matériel de lecture:

Soupes modèles: la moyenne des poids de plusieurs modèles affinés améliore la précision sans augmenter le temps d'inférence
Modification des modèles avec arithmétique de la tâche
Fusionner les modèles de gros langues avec Mergekit

Plus d'articles sur la fusion de modèles peuvent être trouvés ici

Génération efficace

L'accélération du décodage des LLM est cruciale pour améliorer la vitesse et l'efficacité d'inférence, en particulier dans les applications en temps réel ou sensibles à la latence. Voici quelques travaux représentatifs pour accélérer le processus de décodage des LLMS:

DEJA VU: Crateaux contextuels pour les LLM efficaces au moment de l'inférence (ICML 2023 oral)
LLMLINGUA: compression des invites à l'inférence accélérée des modèles de gros langues (EMNLP 2023)
Modèles efficaces de langage de streaming avec des puits d'attention
Speinfer: accélération de la LLM générative servant avec une inférence spéculative et une vérification des arbres à jeton
MEDUSA: Cadre d'accélération de l'inférence LLM simple avec plusieurs têtes de décodage
Modèles de grande langue meilleurs et plus rapides via une prédiction multi-token
Skip de calque: permettant une inférence de sortie précoce et un décodage autonome

Des travaux supplémentaires sur l'accélération du décodage LLM peuvent être trouvés via le lien 1 et le lien 2.

Modification des connaissances

L'édition des connaissances vise à modifier efficacement les comportements LLMS, tels que la réduction des biais et la révision des corrélations apprises. Il comprend de nombreux sujets tels que la localisation des connaissances et le désapprentissage. Le travail représentatif comprend:

Édition de modèle basée sur la mémoire à grande échelle (ICML 2022)
Transformateur-Patcher: Une erreur d'une valeur d'un neurone (ICLR 2023)
Édition massive pour un modèle de grande langue via Meta Learning (ICLR 2024)
Un cadre unifié pour l'édition de modèle
Les couches d'alimentation transformateur sont des souvenirs de valeur clé (EMNLP 2021)
Mémoire d'édition de masse dans un transformateur

Plus de papiers peuvent être trouvés ici.

Agents alimentés par LLM

En recevant une formation massive, LLMS digère les connaissances du monde et est capable de suivre précisément les instructions d'entrée. Avec ces capacités incroyables, les LLM peuvent jouer en tant qu'agents qui sont possibles à résoudre de manière autonome (et collaborative) des tâches complexes ou simuler les interactions humaines. Voici quelques articles représentatifs des agents LLM:

Agents génératifs: Simulacra interactive du comportement humain (UIST 2023) [LLMS simule la société humaine dans les jeux vidéo]
Sotopia: Évaluation interactive de l'intelligence sociale dans les agents linguistiques (ICLR 2024) [LLMS simule les interactions sociales]
Voyager: un agent incarné à extrémité ouverte avec de grands modèles de langue [LLMS vivent dans le monde Minecraft]
Les grands modèles de langue en tant que fabricants d'outils (ICLR 2024) [LLMS créent leurs propres outils réutilisables (par exemple, en fonctions Python) pour la résolution de problèmes]
Metagpt: Meta Programming for Multi-Agent Collaborative Framework [LLMS en équipe pour le développement de logiciels automatisé]
Webarena: un environnement Web réaliste pour la création d'agents autonomes (ICLR 2024) [LLMS utilise des applications Web]
Mobile-env: une plate-forme d'évaluation et une référence pour l'interaction LLM-Gui [LLMS utilisent des applications mobiles]
HuggingGpt: résoudre des tâches d'IA avec Chatgpt et ses amis dans un visage étreint (Nerips 2023) [LLMS cherche des modèles en étreinte pour la résolution de problèmes]
AgentGyM: évoluer d'agents basés sur un modèle de langue importants dans divers environnements [divers environnements interactifs et tâches pour les agents basés sur LLM]

Une liste complète des articles, des plateformes et des outils d'évaluation peut être trouvée ici.

Résultats

Votre transformateur est secrètement linéaire
Toutes les fonctionnalités du modèle de langue ne sont pas linéaires
KAN ou MLP: une comparaison plus juste
Transformateur se couche comme des peintres
Les modèles de langue de vision sont aveugles

Défis ouverts

Les LLM sont confrontées à plusieurs défis ouverts que les chercheurs et les développeurs travaillent activement à relever. Ces défis incluent:

Hallucination
- Une étude complète des techniques d'atténuation des hallucinations dans les modèles de grande langue
Compression du modèle
- Une étude complète des algorithmes de compression pour les modèles de langue
Évaluation
- Évaluation des modèles de grandes langues: une enquête complète
Raisonnement
- Une enquête sur le raisonnement avec les modèles de fondation
Explicabilité
- De la compréhension à l'utilisation: une enquête sur l'explication des modèles de grande langue
Justice
- Une enquête sur l'équité dans les modèles de grande langue
Factualité
- Une enquête sur la factualité dans les modèles de grande langue: connaissances, récupération et spécificité du domaine
Intégration des connaissances
- Tendances dans l'intégration des connaissances et des modèles de grandes langues: une enquête et une taxonomie des méthodes, des références et des applications

Une liste complète peut être trouvée ici.

Modèles de diffusion

Les modèles de diffusion visent à environ la distribution de probabilité d'un domaine de données donné et à fournir un moyen de générer des échantillons à partir de sa distribution approximée. Leurs objectifs sont similaires à d'autres modèles génératifs populaires, tels que VAE, GANS et les flux de normalisation.

Le flux de travail de modèles de diffusion est présenté avec deux processus:

Processus avant (processus de diffusion): il applique progressivement le bruit aux données d'entrée d'origine étape par étape jusqu'à ce que les données deviennent complètement le bruit.
Processus inverse (processus de débraillé): un modèle NN (par exemple, CNN ou Tranformer) est formé pour estimer le bruit appliqué à chaque étape pendant le processus avant. Ce modèle NN formé peut ensuite être utilisé pour générer des données à partir de l'entrée de bruit. Les modèles de diffusion existants peuvent également accepter d'autres signaux (par exemple, les invites de texte des utilisateurs) pour conditionner la génération de données.

Consultez ce blog génial et des tutoriels d'introduction plus possibles peuvent être trouvés ici. Les modèles de diffusion peuvent être utilisés pour générer des images, des audios, des vidéos et plus encore, et il existe de nombreux sous-champs liés aux modèles de diffusion comme indiqué ci-dessous [Source de l'image]:

Taxonomie du modèle de diffusion

Génération d'images

Voici quelques articles représentatifs de modèles de diffusion pour la génération d'images:

Synthèse d'image à haute résolution avec des modèles de diffusion latente (CVPR 2022)
Palette: Modèles de diffusion d'image à image (Siggraph 2022)
Super-résolution d'image par raffinement itératif
Intégralité de l'utilisation de modèles probabilistes de diffusion de dénoçage (CVPR 2022)
Ajout d'un contrôle conditionnel aux modèles de diffusion de texte à l'image (ICCV 2023)

Plus de papiers peuvent être trouvés ici.

Génération de vidéos

Voici quelques articles représentatifs de modèles de diffusion pour la génération de vidéos:

Modèles de diffusion vidéo
Modélisation de diffusion flexible des longues vidéos (Neirips 2022)
Échelle des modèles de diffusion vidéo latente à de grands ensembles de données
I2VGEN-XL: Synthèse d'image à vidéo de haute qualité via des modèles de diffusion en cascade

Plus de papiers peuvent être trouvés ici.

Génération audio

Voici quelques articles représentatifs de modèles de diffusion pour la génération audio:

Grad-TTS: un modèle probabiliste de diffusion pour le texte-parole
Génération de texte à audio à l'aide de LLM et de modèle de diffusion latente réglées par instruction
Conditionnement vocal zéro-tir pour les modèles TTS de diffusion de débrassement
Editts: Édition basée sur les scores pour un texte vocable contrôlable
Prodiff: modèle de diffusion rapide progressive pour le texte vock de haute qualité

Plus de papiers peuvent être trouvés ici.

Pré-entraînement et finetun

Semblable à d'autres grands modèles génératifs, les modèles de diffusion sont également pré-étendus sur une grande quantité de données Web (par exemple, ensemble de données LAION-5B) et consomment des ressources informatiques massives. Les utilisateurs peuvent télécharger les poids publiés peuvent affiner davantage le modèle sur les ensembles de données personnels.

Voici quelques articles représentatifs de réglage fin efficace des modèles de diffusion:

Dreambooth: Modèles de diffusion de texte à l'image à réglage fin pour la génération axée sur le sujet (CVPR 2023)
Une image vaut un mot: personnaliser la génération de texte à l'image en utilisant l'inversion textuelle (ICLR 2023)
Diffusion personnalisée: personnalisation multi-concept de la diffusion du texte à l'image (CVPR 2023)
Contrôle de la diffusion du texte à l'image par des finetuning orthogonaux (Neirips 2023)

Plus de papiers peuvent être trouvés ici.

Il est fortement recommandé de faire une certaine pratique avec l'API des diffuseurs HuggingFace.

Évaluation

Nous parlons ici de l'évaluation des modèles de diffusion pour la génération d'images. De nombreuses mesures de qualité d'image existantes peuvent être appliquées.

Score de clip: le score de clip mesure la compatibilité des paires d'images. Les scores de clip plus élevés impliquent une compatibilité plus élevée. Le score de clip s'est avéré avoir une corrélation élevée avec le jugement humain.
FRÉCHET INCECTION Distance (FID): FID vise à mesurer à quel point les deux ensembles de données d'images sont similaires. Il est calculé en calculant la distance Fréchet entre deux Gaussiens adaptés à des représentations du réseau de création
Clip Directionnel de similitude: il mesure la cohérence du changement entre les deux images (dans l'espace clip) avec le changement entre les deux légendes d'image.

Plus de métriques de qualité d'image et d'outils de calcul peuvent être trouvés ici.

Génération efficace

Les modèles de diffusion nécessitent plusieurs étapes avant pour générer des données, ce qui est coûteux. Voici quelques articles représentatifs de modèles de diffusion pour une génération efficace:

Je dois aller vite lors de la génération de données avec des modèles basés sur les scores
Échantillonnage rapide des modèles de diffusion avec intégrateur exponentiel
Apprendre des échantillonneurs rapides pour les modèles de diffusion en différenciant la qualité de l'échantillon
Accélération des modèles de diffusion via un arrêt précoce du processus de diffusion

Plus de papiers peuvent être trouvés ici.

Modification des connaissances

Voici quelques articles représentatifs de l'édition des connaissances pour les modèles de diffusion:

Effacer les concepts des modèles de diffusion (ICCV 2023)
Édition de concepts massifs dans les modèles de diffusion de texte à l'image
Oublier-moi: apprendre à oublier dans les modèles de diffusion texto-image

Plus de papiers peuvent être trouvés ici.

Défis ouverts

Voici quelques documents d'enquête parlant des défis auxquels sont confrontés les modèles de diffusion.

Une étude des modèles de génération d'images basés sur la diffusion
Une enquête sur les modèles de diffusion vidéo
Modèles de diffusion de pointe sur l'informatique visuelle
Modèles de diffusion dans la PNL: une enquête

Grands modèles multimodaux (LMM)

Les LMM typiques sont construites en connectant et en réglant des modèles unimodaux pré-éradés existants. Certains sont également pré-entraînés à partir de zéro. Vérifiez comment les LMM évoluent dans l'image ci-dessous [source d'image].

Taxonomie du modèle de diffusion

Architectures de modèle

Il existe de nombreuses façons différentes de contraindre les LMM. Les architectures représentatives comprennent:

Les modèles de langue sont des interfaces à usage général
Flamingo: un modèle de langage visuel pour l'apprentissage à quelques coups (Neirips 2022)
BLIP: Bootstrap-Image-Image pré-formation pour la compréhension et la génération unifiées de la vision (ICML 2022)
Blip-2: Bootstrapage-image-image pré-formation avec des encodeurs d'images congelés et des modèles de grands langues (ICML 2023)
Mplug-Owl2: Révolution du modèle de grande langue multimodal avec collaboration de modalité
Florence-2: Faire avancer une représentation unifiée pour une variété de tâches de vision
Connecteur dense pour MLLMS

Plus de documents peuvent être trouvés via le lien 1 et le lien 2.

Vers des agents incarnés

En combinant les LMM avec des robots, les chercheurs visent à développer des systèmes d'IA qui peuvent percevoir, raisonner et agir sur le monde d'une manière plus naturelle et intuitive, avec des applications potentielles couvrant la robotique, les assistants virtuels, les véhicules autonomes et au-delà. Voici quelques travaux représentatifs de réalisation de l'IA incarnée avec LMMS:

RT-1: Transformateur robotique pour le contrôle du monde réel à grande échelle
RT-2: Les modèles d'action visuelle-action transfèrent les connaissances Web vers un contrôle robotique
RT-H: Hiérarchies d'action utilisant la langue
Palm-E: un modèle de langue multimodale incarnée
Transic: transfert de stratégie SIM à réaliser en apprenant à partir de la correction en ligne

Plus de documents peuvent être trouvés via le lien 1 et le lien 2.

Voici quelques simulateurs et ensembles de données populaires pour évaluer les performances de LMMS pour une IA incarnée:

Habitat 3.0: une plate-forme de simulation IA incarnée pour étudier les tâches collaboratives d'interaction humaine-robot dans les environnements domestiques
Prosthor-10k: 10k Environnements ménagers interactifs pour l'IA incarnée
Arnold: une référence pour l'apprentissage des tâches à la langue avec des états continus dans des scènes 3D réalistes
Légende: plate-forme ouverte pour les agents incarnés
Robocase: Simulation à grande échelle des tâches quotidiennes pour les robots généralistes

Plus de ressources peuvent être trouvées ici.

Défis ouverts

Voici quelques documents d'enquête parlant de défis ouverts pour l'IA incarnée par LMM:

La montée et le potentiel des agents basés sur un modèle de langue grande: une enquête
Navigation de la vision avec une intelligence incarnée: une enquête
Une étude de l'IA incarnée: des simulateurs aux tâches de recherche
Une enquête sur les agents autonomes basés sur LLM
Mindstorms dans les sociétés d'esprit basées sur le langage naturel

Au-delà des transformateurs

Les chercheurs essaient d'explorer de nouveaux modèles autres que les transformateurs. Les efforts comprennent implicitement implicitement les paramètres du modèle et la définition de nouvelles architectures de modèle.

Paramètres structurés implicitement

Mixer Monarch: Revisiter Bert, sans attention ou MLPS
Mamba: modélisation de séquences linéaires avec des espaces d'état sélectifs

Nouvelles architectures de modèle

Hiérarchie de l'hyène: vers des modèles de langage convolutionnel plus larges
RWKV: Réinventer des RNN pour l'ère du transformateur
Réseau de rétention: un successeur du transformateur pour les modèles de grande langue
Mamba: modélisation de séquences linéaires avec des espaces d'état sélectifs
Kan: réseaux Kolmogorov - Arnold
Les transformateurs sont SSM

Voici un didacticiel génial pour les modèles d'espace d'État.

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-03-08
taille 166.87KB
Provenant de Github

Applications connexes

awesome generative ai guide

2024-11-05
Devant lui

2024-07-08
Optimiseur de photos IA

2023-07-14
Créateur d'IA

2023-04-23
IA de Jasper

2023-04-12
Alien AI

2022-07-29

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout