LLM · NLP
Text2all · all2all
Multi-modal · multi-tâches
L'intelligence humaine prospère sur le concept de synergie cognitive, où la collaboration et l'intégration de l'information entre les différents processus cognitifs donnent des résultats supérieurs par rapport aux processus cognitifs individuels isolément. Bien que les modèles de grandes langues (LLM) aient démontré des performances prometteuses en tant qu'agents généraux de résolution de tâches, ils ont toujours du mal avec des tâches qui nécessitent des connaissances intensives du domaine et un raisonnement complexe. Dans ce travail, nous proposons une invitation en solo (SPP), qui transforme un LLM unique en un synergiste cognitif en s'engageant dans une collaboration à plusieurs tours avec plusieurs personnages. Un synergiste cognitif fait référence à un agent intelligent qui collabore avec plusieurs esprits, combinant leurs forces et connaissances individuelles, pour améliorer la résolution de problèmes et les performances globales dans des tâches complexes. En identifiant et en simulant dynamiquement différentes personnages en fonction des entrées de tâches, SPP déclenche le potentiel de la synergie cognitive dans les LLM. Nous avons découvert que l'attribution de personnages multiples à grain fin dans les LLMS provoque de meilleures capacités de résolution de problèmes par rapport à l'utilisation d'un nombre unique ou fixe de personnages. Nous évaluons le SPP sur trois tâches difficiles: Trivia Creative Writing, Codenames Collaborative et Logic Grid Puzzle, englobant à la fois des types à forte intensité de connaissances et à forte intensité de raisonnement. Contrairement aux travaux précédents, tels que la chaîne de réflexion, qui améliorent uniquement les capacités de raisonnement dans les LLM, SPP suscite efficacement les capacités d'acquisition de connaissances internes, réduit l'hallucination et maintient de solides capacités de raisonnement. Le code, les données et les invites peuvent être trouvés sur: cette URL HTTPS.
Nous présentons LLM-Blender, un cadre d'ensemble conçu pour atteindre des performances constamment supérieures en tirant parti des diverses forces de plusieurs modèles de grande langue open source (LLM). Notre cadre se compose de deux modules: PairRanker et Genfuser, abordant l'observation selon laquelle les LLM optimaux pour différents exemples peuvent varier considérablement. PairRanker utilise une méthode de comparaison par paire spécialisée pour distinguer les différences subtiles entre les sorties candidates. Il encode conjointement le texte d'entrée et une paire de candidats, en utilisant des encodeurs croisés pour déterminer celui supérieur. Nos résultats démontrent que PairRanker présente la corrélation la plus élevée avec le classement basé sur Chatgpt. Ensuite, Genfuser vise à fusionner les candidats les mieux classés, générant une production améliorée en capitalisant sur leurs forces et en atténuant leurs faiblesses. Pour faciliter l'évaluation à grande échelle, nous introduisons un ensemble de données de référence, MixinStruct, qui est un mélange de ensembles de données d'instructions multiples avec des comparaisons Oracle par paires. Notre mélangeur LLM surpasse considérablement les LLM individuelles et les méthodes de base à travers diverses mesures, établissant un écart de performance substantiel.
Les modèles de grands langues (LLM) ont été prometteurs dans la prouvance des théorèmes formels à l'aide d'assistants de preuve tels que Lean. Cependant, les méthodes existantes sont difficiles à reproduire ou à construire, en raison de code privé, de données et de grandes exigences de calcul. Cela a créé des obstacles substantiels à la recherche sur les méthodes d'apprentissage automatique pour la preuve du théorème. Cet article supprime ces barrières en introduisant Leandojo: un terrain de jeu maigre open source composé de boîtes à outils, de données, de modèles et de repères. Leandojo extrait les données de Lean et permet l'interaction avec l'environnement de preuve par programme. Il contient des annotations à grain fin des prémisses dans les preuves, fournissant des données précieuses pour la sélection des prémisses - un goulot d'étranglement clé dans la preuve du théorème. À l'aide de ces données, nous développons le reprover (prover de récupération auprès de la récupération): le premier prover basé sur LLM qui est augmenté de récupération pour sélectionner des locaux dans une vaste bibliothèque mathématique. Il est peu coûteux et n'a besoin qu'une seule semaine de formation GPU. Notre Retriever exploite la capacité d'analyse de programme de Leandojo pour identifier les prémisses accessibles et les exemples négatifs durs, ce qui rend la récupération beaucoup plus efficace. De plus, nous construisons une nouvelle référence composée de 96 962 théorèmes et preuves extraites de la bibliothèque mathématique de Lean. Il présente une division de données difficiles, ce qui oblige le prover à se généraliser aux théorèmes qui s'appuient sur de nouvelles prémisses qui ne sont jamais utilisées dans la formation. Nous utilisons cette référence pour la formation et l'évaluation, et les résultats expérimentaux démontrent l'efficacité du reprover par rapport aux lignes de base non récent et GPT-4. Nous fournissons ainsi le premier ensemble de provers de théorème basés sur LLM open source sans aucun ensemble de données propriétaires et le libérons sous une licence MIT permissive pour faciliter les recherches supplémentaires.
Répondre aux requêtes visuelles est une tâche complexe qui nécessite à la fois un traitement visuel et un raisonnement. Les modèles de bout en bout, l'approche dominante de cette tâche, ne font pas explicitement les deux, limitant l'interprétabilité et la généralisation. L'apprentissage des programmes modulaires présente une alternative prometteuse, mais s'est avérée difficile en raison de la difficulté d'apprendre à la fois les programmes et les modules simultanément. Nous introduisons Vipergpt, un cadre qui exploite les modèles de génération de code pour composer des modèles de vision et de langage dans des sous-programmes pour produire un résultat pour toute requête. Vipergpt utilise une API fournie pour accéder aux modules disponibles et les compose en générant du code Python qui est ensuite exécuté. Cette approche simple ne nécessite plus de formation et obtient des résultats de pointe dans diverses tâches visuelles complexes.
La longueur de séquence de mise à l'échelle est devenue une demande critique à l'ère des modèles de gros langues. Cependant, les méthodes existantes luttent avec une complexité de calcul ou une expressivité du modèle, rendant la longueur maximale de séquence restreinte. Dans ce travail, nous introduisons Longnet, une variante de transformateur qui peut mettre à l'échelle la longueur de séquence à plus d'un milliard de jetons, sans sacrifier les performances sur des séquences plus courtes. Plus précisément, nous proposons une attention dilatée, qui élargit le champ attentif de façon exponentielle à mesure que la distance augmente. LongNet présente des avantages importants: 1) il a une complexité de calcul linéaire et une dépendance au logarithme entre les jetons; 2) Il peut être servi comme entraîneur distribué pour des séquences extrêmement longues; 3) Son attention dilatée remplace l'attention standard, qui peut être intégrée de manière transparente à l'optimisation basée sur le transformateur existant. Les résultats des expériences démontrent que LongNet donne de fortes performances sur les tâches de modélisation à longue séquence et de langue générale. Notre travail ouvre de nouvelles possibilités pour modéliser de très longues séquences, par exemple, le traitement d'un corpus entier ou même de l'ensemble de l'Internet comme séquence.
Une grande convergence du langage, de la vision et de la pré-formation multimodale émerge. Dans ce travail, nous introduisons un modèle de fondation multimodal à usage général Beit-3, qui atteint des performances de transfert de pointe sur les tâches de vision et de vision. Plus précisément, nous faisons progresser la grande convergence à partir de trois aspects: l'architecture de la colonne vertébrale, la tâche de pré-formation et la mise à l'échelle du modèle. Nous introduisons des transformateurs multiseaux pour la modélisation à usage général, où l'architecture modulaire permet à la fois une fusion profonde et un codage spécifique à la modalité. Sur la base de l'épine dorsale partagée, nous effectuons une modélisation masquée "langue" sur des images (imglish), des textes (anglais) et des paires de texte d'image ("phrases parallèles") de manière unifiée. Les résultats expérimentaux montrent que Beit-3 obtient des performances de pointe sur la détection d'objets (CoCo), la segmentation sémantique (ADE20K), la classification d'image (ImageNet), le raisonnement visuel (NLVR2), la question de la question visuelle (VQav2), le légende de l'image (CoCo) et la rétrivale croisée (Flickr30K, Coco).
Les modèles de grands langues (LLM) ont récemment connu une vague impressionnante d'avancées, avec des modèles excellant désormais dans une variété de tâches, telles que le raisonnement mathématique et la synthèse de programme. Cependant, leur potentiel d'utiliser efficacement les outils via des appels API reste insatisfait. Il s'agit d'une tâche difficile même pour les LLM de pointe d'aujourd'hui telles que le GPT-4, en grande partie en raison de leur incapacité à générer des arguments d'entrée précis et de leur tendance à halluciner la mauvaise utilisation d'un appel API. Nous publions Gorilla, un modèle basé sur Llama Finetuned qui dépasse les performances de GPT-4 sur l'écriture d'appels API. Lorsqu'il est combiné avec un Retriever de documents, Gorilla démontre une forte capacité de s'adapter aux modifications de documents de temps de test, permettant des mises à jour des utilisateurs flexibles ou des modifications de version. Il atténue également considérablement la question de l'hallucination, couramment rencontrée lors de l'incitation directement aux LLM. Pour évaluer la capacité du modèle, nous introduisons Apibench, un ensemble de données complet consistant en API HuggingFace, TorchHub et Tensorhub. L'intégration réussie du système de récupération avec Gorilla montre le potentiel de la LLMS d'utiliser plus précisément les outils, de suivre la documentation fréquemment mise à jour et, par conséquent, augmenter la fiabilité et l'applicabilité de leurs résultats. Le modèle et le code de gorille sont disponibles sur https://github.com/shishirpatil/gorilla.
Les modèles de grands langues (LLM) ont réalisé des progrès remarquables dans diverses tâches de traitement du langage naturel avec des capacités émergentes. Cependant, ils sont confrontés à des limitations inhérentes, comme une incapacité à accéder à des informations à jour, à utiliser des outils externes ou à effectuer un raisonnement mathématique précis. Dans cet article, nous présentons Chameleon, un cadre de raisonnement de composition plug-and-play qui augmente les LLM pour aider à relever ces défis. Chameleon synthétise des programmes pour composer divers outils, notamment des modèles LLM, des modèles de vision standard, des moteurs de recherche Web, des fonctions Python et des modules basés sur des règles adaptés aux intérêts des utilisateurs. Construit au-dessus d'un LLM en tant que planificateur de langage naturel, le caméléon déduit la séquence appropriée d'outils pour composer et exécuter afin de générer une réponse finale. Nous présentons l'adaptabilité et l'efficacité du caméléon sur deux tâches: ScienceQA et TabMWP. Notamment, Chameleon avec GPT-4 atteint une précision de 86,54% sur ScienceQA, améliorant considérablement le modèle à quelques tirs le mieux publié de 11,37%; En utilisant GPT-4 comme LLM sous-jacent, Chameleon atteint une augmentation de 17,8% par rapport au modèle de pointe, conduisant à une précision globale de 98,78% sur TABMWP. D'autres études suggèrent que l'utilisation de GPT-4 comme planificateur présente une sélection d'outils plus cohérente et rationnelle et est capable de déduire des contraintes potentielles compte tenu des instructions, par rapport à d'autres LLM comme Chatgpt.
Comment transformer efficacement les modèles de grandes langues (LLM) en adepte d'instructions est récemment une orientation de recherche populaire, tandis que Training LLM pour le raisonnement multimodal reste moins exploré. Bien que le récent adaptateur lama montre le potentiel de gérer les entrées visuelles avec les LLM, il ne peut toujours pas généraliser bien aux instructions visuelles ouvertes et à la traîne derrière GPT-4. Dans cet article, nous présentons LLAMA-Adapter V2, un modèle d'instruction visuelle économe en paramètres. Plus précisément, nous augmentons d'abord LLAMA-adapter en débloquant des paramètres plus apprenables (par exemple, norme, biais et échelle), qui distribue la capacité de suivi des instructions sur l'ensemble du modèle LLAMA en plus des adaptateurs. Deuxièmement, nous proposons une stratégie de fusion précoce pour alimenter les jetons visuels uniquement dans les premières couches LLM, contribuant à une meilleure incorporation de connaissances visuelles. Troisièmement, un paradigme de formation conjoint de paires de texte d'image et de données de suivi des instructions est introduite en optimisant des groupes disjoints de paramètres d'apprentissage. Cette stratégie atténue efficacement les interférences entre les deux tâches de l'alignement du texte d'image et de l'instruction après et n'atteint un solide raisonnement multimodal avec seulement un jeu de données de texte d'image et d'instruction à petite échelle. Au cours de l'inférence, nous incorporons des modèles d'experts supplémentaires (par exemple, sous-titrage / systèmes OCR) dans l'adaptation de lama pour améliorer encore sa capacité de compréhension de l'image sans encourir les coûts de formation. Comparé à l'adaptateur de lama d'origine, notre LLAMA-Adapter V2 peut effectuer des instructions multimodales ouvertes en introduisant simplement des paramètres de 14 m sur Llama. Le framework nouvellement conçu présente également des capacités de suivi des instructions linguistiques et excellent même dans les interactions de chat. Notre code et nos modèles sont disponibles sur cette URL HTTPS.
Les procurations crédibles du comportement humain peuvent permettre aux applications interactives allant des environnements immersifs aux espaces de répétition pour la communication interpersonnelle aux outils de prototypage. Dans cet article, nous introduisons des agents génératifs - des agents logiciels qui simulent un comportement humain crédible. Les agents génératifs se réveillent, préparent le petit-déjeuner et dirigez-vous au travail; Les artistes peignent, tandis que les auteurs écrivent; Ils se forment des opinions, se remarquent et déclenchent des conversations; Ils se souviennent et réfléchissent les jours passés comme ils le prévoient le lendemain. Pour permettre aux agents génératifs, nous décrivons une architecture qui étend un modèle de langue large pour stocker un enregistrement complet des expériences de l'agent en utilisant le langage naturel, synthétisez ces souvenirs au fil du temps dans des réflexions de niveau supérieur et les récupérer dynamiquement pour planifier le comportement. Nous instancions des agents génératifs pour peupler un environnement de bac à sable interactif inspiré des Sims, où les utilisateurs finaux peuvent interagir avec une petite ville de vingt-cinq agents en utilisant le langage naturel. Dans une évaluation, ces agents génératifs produisent des comportements sociaux individuels et émergents crédibles: par exemple, en commençant par une seule notion spécifiée par l'utilisateur qu'un agent veut organiser une fête de la Saint-Valentin, les agents ont répandu de manière autonome les invitations à la partie, et coordonnées pour se présenter à la fête au bon moment. Nous démontrons par ablation que les composantes de notre architecture d'agent - l'observation, la planification et la réflexion - chacun contribuent de manière critique à la crédibilité du comportement des agents. En fusionnant de grands modèles de langue avec des agents informatiques et interactifs, ce travail introduit des modèles d'architecture et d'interaction pour permettre des simulations crédibles de comportement humain.
Les avancées récentes dans les agents de modèle de grande langue (LLM) décisionnelles ont démontré des performances impressionnantes dans diverses références. Cependant, ces approches de pointe nécessitent généralement du réglage final du modèle interne, du réglage fin externe ou de l'optimisation des politiques sur un espace d'état défini. La mise en œuvre de ces méthodes peut s'avérer difficile en raison de la rareté des données de formation de haute qualité ou du manque d'espace d'état bien défini. De plus, ces agents ne possèdent pas certaines qualités inhérentes aux processus de prise de décision humaine, en particulier la capacité d'apprendre des erreurs. L'auto-réflexion permet aux humains de résoudre efficacement de nouveaux problèmes grâce à un processus d'essais et d'erreurs. S'appuyant sur des recherches récentes, nous proposons une réflexion, une approche qui confonde un agent avec une mémoire dynamique et des capacités d'auto-réflexion pour améliorer ses capacités existantes de choix de trace et d'action spécifiques aux tâches. Pour atteindre une automatisation complète, nous introduisons une heuristique simple mais efficace qui permet à l'agent de localiser les instances d'hallucination, d'éviter la répétition dans les séquences d'action et, dans certains environnements, construisez une carte mémoire interne de l'environnement donné. Pour évaluer notre approche, nous évaluons la capacité de l'agent à effectuer des tâches de prise de décision dans les environnements Alfworld et les tâches de questions et réponses basées sur la recherche dans les connaissances dans les environnements Hotpotqa. Nous observons respectivement des taux de réussite de 97% et 51%, et fournissons une discussion sur la propriété émergente de l'auto-réflexion.
Comme les gens, les LLM ne génèrent pas toujours le meilleur texte pour un problème de génération donné lors de leur premier essai (par exemple, résumés, réponses, explications). Tout comme les gens affinent ensuite leur texte, nous introduisons l'auto-refine, un cadre pour améliorer de manière similaire les résultats initiaux de LLMS par la rétroaction itérative et le raffinement. L'idée principale est de générer une sortie à l'aide d'un LLM, puis de permettre au même modèle de fournir une rétroaction multi-aspect pour sa propre sortie; Enfin, le même modèle affine sa sortie précédemment générée avec ses propres commentaires. Contrairement aux travaux antérieurs, notre cadre de raffinement itératif ne nécessite pas de données de formation ou d'apprentissage de renforcement supervisées, et fonctionne avec un seul LLM. Nous expérimentons 7 tâches diverses, allant de la réécriture de revue au raisonnement mathématique, démontrant que notre approche surpasse la génération directe. Dans toutes les tâches, les sorties générées avec l'auto-rare sont préférées par les humains et par les mesures automatisées par rapport à celles générées directement avec GPT-3.5 et GPT-4, améliorant en moyenne 20% absolus entre les tâches.
La résolution de tâches AI complexes avec différents domaines et modalités est une étape clé vers l'intelligence artificielle avancée. Bien qu'il existe des modèles d'IA abondants disponibles pour différents domaines et modalités, ils ne peuvent pas gérer les tâches AI compliquées. Étant donné que les modèles de grandes langues (LLM) ont montré une capacité exceptionnelle dans la compréhension, la génération, l'interaction et le raisonnement exceptionnelles, nous préconisons que les LLM pourraient agir en tant que contrôleur pour gérer les modèles d'IA existants pour résoudre les tâches d'IA complexes et le langage pourrait être une interface générique pour permettre cela. Sur la base de cette philosophie, nous présentons HuggingGpt, un cadre qui exploite les LLM (par exemple, Chatgpt) pour connecter divers modèles d'IA dans les communautés d'apprentissage automatique (par exemple, le visage étreint) pour résoudre les tâches d'IA. Plus précisément, nous utilisons ChatGpt pour effectuer la planification des tâches lors de la réception d'une demande utilisateur, sélectionnons les modèles en fonction de leurs descriptions de fonction disponibles dans Hugging Face, exécutez chaque sous-tâche avec le modèle AI sélectionné et résumant la réponse en fonction des résultats de l'exécution. En tirant parti de la forte capacité linguistique de Chatgpt et d'abondants modèles d'IA dans un visage étreint, HuggingGpt est capable de couvrir de nombreuses tâches d'IA sophistiquées dans différentes modalités et domaines et d'obtenir des résultats impressionnants dans le langage, la vision, la parole et d'autres tâches difficiles, ce qui trahit un nouveau moyen vers l'intelligence artificielle avancée.
Auto-GPT est une application expérimentale open source présentant les capacités du modèle de langue GPT-4. Ce programme, motivé par GPT-4, chaînes ensemble LLM "pensées", pour atteindre de manière autonome tout objectif que vous fixez. Comme l'un des premiers exemples de GPT-4 fonctionnant entièrement de manière autonome, Auto-GPT repousse les limites de ce qui est possible avec l'IA.
Il y a un nombre croissant de modèles de langues importants (LLM) que les utilisateurs peuvent interroger pour des frais. Nous passons en revue le coût associé à l'interrogation des API LLM populaire, par exemple GPT-4, ChatGPT, J1-Jumbo, et constatons que ces modèles ont des structures de prix hétérogènes, avec des frais qui peuvent différer de deux ordres de grandeur. En particulier, l'utilisation de LLMS sur de grandes collections de requêtes et de texte peut être coûteuse. Motivés par cela, nous décrivons et discutons trois types de stratégies que les utilisateurs peuvent exploiter pour réduire le coût d'inférence associé à l'utilisation de LLMS: 1) une adaptation rapide, 2) une approximation LLM et 3) la cascade LLM. Par exemple, nous proposons Frugalgpt, une instanciation simple mais flexible de la cascade LLM qui apprend quelles combinaisons de LLM à utiliser pour différentes requêtes afin de réduire les coûts et d'améliorer la précision. Nos expériences montrent que Frugalgpt peut correspondre aux performances du meilleur LLM individuel (par exemple GPT-4) avec jusqu'à 98% de réduction des coûts ou améliorer la précision sur GPT-4 de 4% avec le même coût. Les idées et les résultats présentés ici jettent une base pour l'utilisation de LLMS durablement et efficacement.
Les modèles de grands langues (LLM) ont été prometteurs dans la prouvance des théorèmes formels à l'aide d'assistants de preuve tels que Lean. Cependant, les méthodes existantes sont difficiles à reproduire ou à construire, en raison de code privé, de données et de grandes exigences de calcul. Cela a créé des obstacles substantiels à la recherche sur les méthodes d'apprentissage automatique pour la preuve du théorème. Cet article supprime ces barrières en introduisant Leandojo: un terrain de jeu maigre open source composé de boîtes à outils, de données, de modèles et de repères. Leandojo extrait les données de Lean et permet l'interaction avec l'environnement de preuve par programme. Il contient des annotations à grain fin des prémisses dans les preuves, fournissant des données précieuses pour la sélection des prémisses - un goulot d'étranglement clé dans la preuve du théorème. À l'aide de ces données, nous développons le reprover (prover de récupération auprès de la récupération): le premier prover basé sur LLM qui est augmenté de récupération pour sélectionner des locaux dans une vaste bibliothèque mathématique. Il est peu coûteux et n'a besoin qu'une seule semaine de formation GPU. Notre Retriever exploite la capacité d'analyse de programme de Leandojo pour identifier les prémisses accessibles et les exemples négatifs durs, ce qui rend la récupération beaucoup plus efficace. De plus, nous construisons une nouvelle référence composée de 96 962 théorèmes et preuves extraites de la bibliothèque mathématique de Lean. Il présente une division de données difficiles, ce qui oblige le prover à se généraliser aux théorèmes qui s'appuient sur de nouvelles prémisses qui ne sont jamais utilisées dans la formation. Nous utilisons cette référence pour la formation et l'évaluation, et les résultats expérimentaux démontrent l'efficacité du reprover par rapport aux lignes de base non récent et GPT-4. Nous fournissons ainsi le premier ensemble de provers de théorème basés sur LLM open source sans aucun ensemble de données propriétaires et le libérons sous une licence MIT permissive pour faciliter les recherches supplémentaires.
Des travaux récents ont montré que l'incitation à des modèles linguistiques avec des représentations de code du langage naturel conduit à des améliorations de performances sur les tâches de raisonnement structurées. Cependant, ces tâches ne comprennent qu'un petit sous-ensemble de toutes les tâches en langage naturel. Dans notre travail, nous cherchons à répondre si la compression de code est ou non le moyen préféré d'interagir avec les modèles de langue en général. Nous comparons les invites de code et de texte sur trois modèles GPT populaires (DaVinci, Code-Davinci-002 et Text-Davinci-002) sur une sélection plus large de tâches (par exemple, QA, sentiment, résumé) et constatons qu'à quelques exceptions près, les invites de code ne surpassent pas systématiquement les invites de texte. De plus, nous montrons que le style de code de code a un effet important sur les performances pour certaines tâches mais pas toutes les tâches et que le réglage fin sur les instructions de texte conduit à de meilleures performances relatives des invites de code.
Les modèles de grands langues (LLM) effectuent un raisonnement complexe en générant des explications de leurs prédictions. Cependant, un objectif complémentaire des explications est également de communiquer des connaissances utiles qui améliorent les agents plus faibles. Par conséquent, nous étudions si les LLM font également de bons enseignants pour des agents plus faibles. En particulier, nous considérons un cadre étudiant-enseignant entre deux agents LLM et étudions si, quand et comment l'enseignant doit intervenir avec des explications en langage naturel pour améliorer les performances de l'élève. Étant donné que la communication est coûteuse, nous définissons un budget tel que l'enseignant ne communique que des explications pour une fraction des données, après quoi l'élève devrait bien performer tout seul. Nous décomposons le problème d'enseignement le long de quatre axes: (1) Si l'intervention du temps de test de l'enseignant améliore les prédictions des élèves, (2) lorsqu'il vaut la peine d'expliquer un point de données, (3) comment l'enseignant doit personnaliser les explications pour mieux enseigner à l'élève, et (4) si les explications des enseignants améliorent également les performances des élèves sur les données futures inexpliquées. Nous montrons d'abord que les LLM des enseignants peuvent en effet intervenir sur le raisonnement des élèves pour améliorer leurs performances. Ensuite, nous proposons une approche de la théorie de l'esprit, dans laquelle l'enseignant construit deux modèles mentaux à quelques coups de l'élève. Le premier modèle définit une fonction d'intervention qui simule l'utilité d'une intervention, permettant à l'enseignant d'intervenir lorsque cet utilité est la performance des élèves les plus élevée et l'amélioration à des budgets inférieurs. Le deuxième modèle permet à l'enseignant de personnaliser des explications pour un élève particulier et de surpasser les enseignants non intermédiaires. Nous démontrons également que dans les interactions multi-virnes, les explications des enseignants généralisent et l'apprentissage des données expliquées améliore les performances des élèves sur les données futures inexpliquées. Enfin, nous vérifions également que les enseignants mal alignés peuvent réduire les performances des élèves à des chances aléatoires en les trompant intentionnellement.
Nous présentons Kosmos-2, un modèle multimodal de grande langue (MLLM), permettant de nouvelles capacités de percevoir des descriptions d'objets (par exemple, des boîtes de délimitation) et du texte de mise à la terre au monde visuel. Plus précisément, nous représentons des expressions de références comme des liens dans Markdown, c'est-à-dire `` `[Span de texte] (boîtes de délimitation) '', où les descriptions d'objets sont des séquences de jetons de localisation. Avec les corpus multimodaux, nous construisons des données à grande échelle de paires de textes d'image ancrées (appelées grain) pour former le modèle. En plus des capacités existantes de MLLMS (par exemple, percevant les modalités générales, suivant les instructions et effectuant un apprentissage dans le contexte), Kosmos-2 intègre la capacité de mise à la base dans les applications en aval. Nous évaluons les Kosmos-2 sur un large éventail de tâches, y compris (i) la mise à la terre multimodale, tels que la référence de la compréhension de l'expression et la mise à la terre des phrases, (ii) les références multimodales, telles que la génération d'expression référencée, (iii) les tâches de perception et (iv) compréhension et génération du langage. Ce travail met en évidence les bases du développement de l'IA de mode de réalisation et met en lumière la grande convergence du langage, de la perception multimodale, de l'action et de la modélisation mondiale, qui est une étape clé vers l'intelligence générale artificielle. Le code et les modèles pré-entraînés sont disponibles sur cette URL HTTPS.
Nous présentons Palm 2, un nouveau modèle de langue de pointe qui a de meilleures capacités multilingues et de raisonnement et est plus économe en calcul que son palmier prédécesseur. Palm 2 est un modèle basé sur un transformateur formé à l'aide d'un mélange d'objectifs. Grâce à des évaluations approfondies sur l'anglais et la langue multilingue et les tâches de raisonnement, nous démontrons que Palm 2 a considérablement amélioré la qualité des tâches en aval à différentes tailles de modèle, tout en présentant simultanément une inférence plus rapide et plus efficace par rapport au palmier. Cette efficacité améliorée permet un déploiement plus large tout en permettant au modèle de répondre plus rapidement, pour un rythme d'interaction plus naturel. Palm 2 démontre des capacités de raisonnement robustes illustrées par de grandes améliorations par rapport à la paume sur le grand-banc et d'autres tâches de raisonnement. Palm 2 présente des performances stables sur une suite d'évaluations d'IA responsables et permet un contrôle du temps d'inférence sur la toxicité sans frais généraux ou impact supplémentaires sur d'autres capacités. Dans l'ensemble, Palm 2 atteint des performances de pointe dans un ensemble diversifié de tâches et de capacités.
La génération d'un mouvement humain réaliste à partir de descriptions d'action donnée a connu des progrès importants en raison de l'exigence émergente des humains numériques. Bien que les travaux récents aient obtenu des résultats impressionnants dans la génération d'un mouvement directement à partir des descriptions d'action textuelle, ils ne prennent souvent en charge qu'une seule modalité du signal de contrôle, ce qui limite leur application dans la véritable industrie humaine numérique. Cet article présente un générateur à usage général de mouvement (MotionGPT) qui peut utiliser des signaux de contrôle multimodaux, par exemple, des poses de texte et de trame unique, pour générer des mouvements humains consécutifs en traitant des signaux multimodaux comme des jetons d'entrée spéciaux dans les modèles de langue grande (LLMS). Plus précisément, nous quantifions d'abord les signaux de contrôle multimodaux en codes discrets, puis les formulons dans une instruction invite unifiée pour demander aux LLM de générer la réponse de mouvement. Notre motiongpt démontre un modèle de génération de mouvement humain unifié avec des signaux de contrôle multimodal en réglant un seul 0,4% des paramètres LLM. À notre connaissance, MotionGpt est la première méthode pour générer un mouvement humain par des signaux de contrôle multimodaux, qui, nous l'espérons, pourra faire la lumière sur cette nouvelle direction. Les codes doivent être libérés lors de l'acceptation.
Les modèles de grands langues (LLM) ont montré des performances impressionnantes sur le raisonnement complexe en tirant parti de la chaîne de pensées (COT), ce qui a suscité des chaînes de raisonnement intermédiaires comme justification pour déduire la réponse. Cependant, les études sur le COT existantes se sont concentrées sur la modalité linguistique. Nous proposons des modalités multimodales qui intègrent les modalités du langage (texte) et de la vision (images) dans un cadre en deux étapes qui sépare la génération de justification et répond à l'inférence. De cette façon, l'inférence des réponses peut tirer parti des justifications mieux générées qui sont basées sur des informations multimodales. Avec le COT multimodal, notre modèle de moins de 1 milliard de paramètres surpasse le LLM précédent de pointe (GPT-3,5) de 16 points de pourcentage (75,17% -> 91,68% de précision) sur la référence ScienceQA et dépasse même les performances humaines. Le code est disponible publiquement disponible sur cette URL HTTPS.
LLAMA 2: Modèles de chat à fondation ouverte et à réglage fin
UNILM: pré-formation autonome à grande échelle à travers les tâches, les langues et les modalités
Réseaux de neurones scandaleusement
Glam: mise à l'échelle efficace des modèles de langage avec mélange de temps
Échelle de vision avec un mélange clairsemé d'experts
Classification de texte «à faible ressource»: une méthode de classification sans paramètre avec des compresseurs
AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model
Goat: Fine-tuned LLaMA Outperforms GPT-4 on Arithmetic Tasks
Textbooks Are All You Need
Model Card and Evaluations for Claude Models
Full Parameter Fine-tuning for Large Language Models with Limited Resources
Augmenting Language Models with Long-Term Memory
Unifying Large Language Models and Knowledge Graphs: A Roadmap
Knowledge Distillation of Large Language Models
SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression
QLoRA: Efficient Finetuning of Quantized LLMs
LIMA: Less Is More for Alignment
Orca: Progressive Learning from Complex Explanation Traces of GPT-4
RWKV: Reinventing RNNs for the Transformer Era
Dr. LLaMA: Improving Small Language Models Through Generative Data Augmentation
The FLAN Instruction Tuning Repository
Phoenix: Democratizing ChatGPT across Languages
Long Sequence Modeling with XGen: A 7B LLM Trained on 8K Input Sequence Length
RedPajama-INCITE
China's Baidu claims its Ernie Bot beats ChatGPT on key tests as AI race heats up
BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
LTM-1: an LLM with a 5,000,000 token context window
Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM
StarCoder: may the source be with you!
Cross-lingual Language Model Pretraining
Language Is Not All You Need: Aligning Perception with Language Models
Tackling multiple tasks with a single visual language model
Large Language Models are Zero-Shot Reasoners
Larger language models do in-context learning differently
GPT Understands, Too
P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks
Do Prompt-Based Models Really Understand the Meaning of their Prompts?
∞-former: Infinite Memory Transformer
Improving language models by retrieving from trillions of tokens
Augmented Language Models: a Survey
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
Structure and Content-Guided Video Synthesis with Diffusion Models
MusicLM: Generating Music From Text
InstructGPT : Training language models to follow instructions with human feedback
BioGPT: Generative Pre-trained Transformer for Biomedical Text Generation and Mining
Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
Multimodal Chain-of-Thought Reasoning in Language Models
Constitutional AI: Harmlessness from AI Feedback
Provable Copyright Protection for Generative Models
What learning algorithm is in-context learning? Investigations with linear models
A Path Towards Autonomous Machine Intelligence
PAL: Program-aided Language Models
Toolformer: Language Models Can Teach Themselves to Use Tools
LLaMA: Open and Efficient Foundation Language Models
Improving alignment of dialogue agents via targeted human judgements
Training Compute-Optimal Large Language Models
LLaMA-based ChatGPT training, ChatLLaMA
RLHF: Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
BaGuaLu: Targeting Brain Scale Pretrained Models with over 37 Million Cores
LLaMA-7B, LLAMA Up-data, LLaMA: INT8 edition, UForm
Flamingo: a Visual Language Model for Few-Shot Learning, Blog
Multimodal Chain-of-Thought Reasoning in Language Models
How to use UForm
How to create KoChatLLaMA
Competition-Level Code Generation with AlphaCode
Scaling Language Models: Methods, Analysis & Insights from Training Gopher
GPU and learning method required for KoChatLlaMA fine-tuning
Advantages and Problems of UForm
GPT-4 is coming next week – and it will be multimodal, says Microsoft Germany
MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition and Robust Speech-to-Text Translation
Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages
PaLM-E: An Embodied Multimodal Language Model
Tightly-Integrated Generative Encoder-Decoder Representation
Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
PaLM: Scaling Language Modeling with Pathways
SpikeGPT: Generative Pre-trained Language Model with Spiking Neural Networks
LoRA: Low-Rank Adaptation of Large Language Models
Language Models are Few-Shot Learners
Low-rank Adaptation for Fast Text-to-Image Diffusion Fine-tuning
Improving language models by retrieving from trillions of tokens
FLAN: Finetuned Language Models Are Zero-Shot Learners
T0: Multitask Prompted Training Enables Zero-Shot Task Generalization
The Flan Collection: Designing Data and Methods for Effective Instruction Tuning
The Wisdom of Hindsight Makes Language Models Better Instruction Followers
Exploring the Benefits of Training Expert Language Models over Instruction Tuning
Unsupervised Imputation of Non-ignorably Missing Data Using Importance-Weighted Autoencoders
The Power of Scale for Parameter-Efficient Prompt Tuning
Constitutional AI: Harmlessness from AI Feedback
Deep reinforcement learning from human preferences
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
Large Language Models with Controllable Working Memory
Do Prompt-Based Models Really Understand the Meaning of their Prompts?
Muse: Text-To-Image Generation via Masked Generative Transformers
Structure and Content-Guided Video Synthesis with Diffusion Models
Generative Pretraining from Pixels
A hunt for the Snark: Annotator Diversity in Data Practices
Accurate global machine learning force fields for molecules with hundreds of atoms
Algorithms with More Granular Differential Privacy Guarantees
Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly Types
Are we cobblers without shoes? Making Computer Science data FAIR
Code Generation for In-Place Stencils
Creating, Calibrating, and Validating Large-Scale Microscopic Traffic Simulation
Increasing Impact of Mobile Health Programs: SAHELI for Maternal and Child Care
Designing Responsible AI: Adaptations of UX Practice to Meet Responsible AI Challenges
Developer Productivity for Humans: A Human-Centered Approach to Developer Productivity
Development of a Machine Learning Model for Sonographic Assessment of Gestational Age
Drug Design on Quantum Computers
Estimates of broadband upwelling irradiance from GOES-16 ABI
Information Processing and Management
Flake Aware Culprit Finding
Flexible Budgets in Restless Bandits: A Primal-Dual Algorithm for Efficient Budget Allocation
Helpful Neighbors: Leveraging Neighbors in Geographic Feature Pronunciation
High-Performance GPU-to-CPU Transpilation and Optimization via High-Level Parallel Constructs
Helpful Neighbors: Leveraging Neighbors in Geographic Feature Pronunciation
Infrastructuring Care: How Trans and Non-Binary People Meet Health and Well-Being Needs through Technology
KwikBucks: Correlation Clustering with Cheap-Weak and Expensive-Strong Signals
Learning to Bid in Contextual First Price Auctions
Machine Learning for Healthcare: A Bibliometric Study of Contributions from Africa
Scalable Decision-Focused Learning in Restless Multi-Armed Bandits with Application to Maternal and Child Health
Robust Planning over Restless Groups: Engagement Interventions for a Large-Scale Maternal Telehealth Program
Recitation-Augmented Language Models
RL4ReAl: Reinforcement Learning for Register Allocation
Quantum Simulation of Exact Electron Dynamics can be more Efficient than Classical Mean-Field Methods
Quantum simulation of exact electron dynamics can be more efficient than classical mean-field methods
Propeller: A Profile Guided, Relinking Optimizer for Warehouse-Scale Applications
Deepmind: Improving language models by retrieving from trillions of tokens
Deepmind: Building safer dialogue agents
Deepmind: Competitive programming with AlphaCode
Deepmind: Mastering Stratego, the classic game of imperfect information
Deepmind: DeepMind's latest research at NeurIPS 2022
Deepmind: Building interactive agents in video game worlds
Deepmind: Discovering novel algorithms with AlphaTensor
Deepmind: AlphaFold reveals the structure of the protein universe
Deepmind: Exploring the beauty of pure mathematics in novel ways
Deepmind: Nowcasting the next hour of rain
Deepmind: Putting the power of AlphaFold into the world's hands
Google Research: Deciphering clinical abbreviations with privacy protecting ML
Google Research: Google Research, 2022 & beyond: Language, vision and generative models
Google Research: Google Research, 2022 & beyond: Responsible AI
Google Research: Learning with queried hints
Google Research: Open Source Vizier: Towards reliable and flexible hyperparameter and blackbox optimization
Google Research: Google Research, 2022 & beyond: ML & computer systems
Google Research: Real-time tracking of wildfire boundaries using satellite imagery
Google Research: Breaching the 2 LMP Approximation Barrier for Facility Location with Applications to k-Median
Google Research: Chimane-Mosetén
Google Research: Differentially Private All-Pairs Shortest Path Distances: Improved Algorithms and Lower Bounds
Google Research: Differentially Private Fair Division
Google Research: DiffQG: Generating Questions on Paired Sentences
Google Research: Assessment of Security Defense of Native Programs Against Software Faults
Google Research: Adaptive mixing of auxiliary losses in supervised learning
OpenAI: Multimodal Neurons in Artificial Neural Networks
OpenAI: DALL·E: Creating Images from Text
OpenAI: CLIP: Connecting Text and Images
OpenAI: Image GPT
OpenAI: Jukebox
OpenAI: Solving Rubik's Cube with a Robot Hand
OpenAI: Multimodal Neurons in Artificial Neural Networks
OpenAI: CLIP: Connecting Text and Images
OpenAI: Image GPT
OpenAI: MuseNet
OpenAI: Emergent Tool Use from Multi-Agent Interaction
[2013/01] Efficient Estimation of Word Representations in Vector Space
[2014/12] Dependency-Based Word Embeddings
[2015/07] Neural Machine Translation of Rare Words with Subword Units
[2014/07] GloVe: Global Vectors for Word Representation : GloVe
[2016/06] Siamese CBOW: Optimizing Word Embeddings for Sentence Representations : Siamese CBOW
[2016/07] Enriching Word Vectors with Subword Information : fastText
[2014/09] Sequence to Sequence Learningwith Neural Networks : seq2seq
[2017/07] Attention Is All You Need : Transformer
[2017/08] Learned in Translation: Contextualized Word Vectors : CoVe
[2018/01] Universal Language Model Fine-tuning for Text Classification : ULMFIT
[2018/02] Deep contextualized word representations : ELMo
[2018/06] Improving Language Understanding by Generative Pre-Training : GPT-1
[2018/10] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding : BERT
[2019/02] Language Models are Unsupervised Multitask Learners : GPT-2
[2019/04] Language Models with Transformers
[2019/08] Neural Text Generation with Unlikelihood Training
[2019/01] Cross-lingual Language Model Pretraining XLM
[2019/01] Multi-Task Deep Neural Networks for Natural Language Understanding : MT-DNN
[2019/01] Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context : Transformer-XL
[2019/06] XLNet: Generalized Autoregressive Pretraining for Language Understanding : XLNet
[2019/04] The Curious Case of Neural Text Degeneration
[2019/09] Fine-Tuning Language Models from Human Preferences
[2019/01] BioBERT: a pre-trained biomedical language representation model for biomedical text mining : BioBERT
[2019/03] SciBERT: A Pretrained Language Model for Scientific Text : SciBERT
[2019/04] ClinicalBERT: Modeling Clinical Notes and Predicting Hospital Readmission : ClinicalBERT
[2019/06] HIBERT: Document Level Pre-training of Hierarchical Bidirectional Transformers for Document Summarization : HIBERT
[2019/07] SpanBERT: Improving Pre-training by Representing and Predicting Spans : SpanBERT
[2019/04] Publicly Available Clinical BERT Embeddings
[2019/08] Pre-Training with Whole Word Masking for Chinese BERT
[2019/07] Is BERT Really Robust? A Strong Baseline for Natural Language Attack on Text Classification and Entailment
[2019/07] R-Transformer: Recurrent Neural Network Enhanced Transformer : R-Transformer
[2019/09] FREELB: ENHANCED ADVERSARIAL TRAINING FOR LANGUAGE UNDERSTANDING : FREELB
[2019/09] Mixup Inference: Better Exploiting Mixup to Defend Adversarial Attacks
[2019/10] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer : T5
[2018/07] Subword-level Word Vector Representations for Korean
[2019/08] Zero-shot Word Sense Disambiguation using Sense Definition Embeddings
[2019/06] Bridging the Gap between Training and Inference for Neural Machine Translation
[2019/06] Emotion-Cause Pair Extraction: A New Task to Emotion Analysis in Texts
[2019/07] A Simple Theoretical Model of Importance for Summarization
[2019/05] Transferable Multi-Domain State Generator for Task-Oriented Dialogue Systems
[2019/07] We need to talk about standard splits
[2019/07] ERNIE 2.0: A Continual Pre-training Framework for Language Understanding : ERNIE 2.0
[2019/05] SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems : SuperGLUE
[2020/01] Towards a Human-like Open-Domain Chatbot + Google AI Blog
[2020/03] ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators : ELECTRA
[2019/04] Mask-Predict: Parallel Decoding of Conditional Masked Language Models : Mask-Predict
[2020/01] Reformer: The Efficient Transformer : Reformer
[2020/04] Longformer: The Long-Document Transformer : Longformer
[2019/11] DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation : DialoGPT
[2020/01] Towards a Human-like Open-Domain Chatbot
[2020/04] You Impress Me: Dialogue Generation via Mutual Persona Perception
[2020/04] Recipes for building an open-domain chatbot
[2020/04] ToD-BERT: Pre-trained Natural Language Understanding for Task-Oriented Dialogues : ToD-BERT
[2020/04] SOLOIST: Few-shot Task-Oriented Dialog with A Single Pre-trained Auto-regressive Model : SOLOIST
[2020/05] A Simple Language Model for Task-Oriented Dialogue
[2019/07] ReCoSa: Detecting the Relevant Contexts with Self-Attention for Multi-turn Dialogue Generation : ReCoSa
[2020/04] FastBERT: a Self-distilling BERT with Adaptive Inference Time : FastBERT
[2020/01] PoWER-BERT: Accelerating BERT inference for Classification Tasks : PoWER-BERT
[2019/10] DistillBERT, a distilled version of BERT: smaller, faster, cheaper and lighter : DistillBERT
[2019/10] TinyBERT: Distilling BERT for Natural Language Understanding : TinyBERT
[2019/11] Not Enough Data? Deep Learning to the Rescue!
[2018/12] Conditional BERT Contextual Augmentation
[2020/03] Data Augmentation using Pre-trained Transformer Models
[2020/04] FLAT: Chinese NER Using Flat-Lattice Transformer : FLAT
[2019/12] Big Transfer (BiT): General Visual Representation Learning : BiT
[2019/04] ERNIE: Enhanced Representation through Knowledge Integration : ERNIE
[2019/07] ERNIE 2.0: A Continual Pre-training Framework for Language Understanding : ERNIE 2.0
[2020/06] ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph : ERNIE-ViL
[2020/12] ERNIE-Doc: A Retrospective Long-Document Modeling Transformer : ERNIE-Doc
[2021/07] ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation : ERNIE 3.0
[2022/10] Beyond English-Centric Bitexts for Better Multilingual Language Representation Learning
[2017/03] Distilling Task-Specific Knowledge from BERT into Simple Neural Networks
[2020/10] DiPair: Fast and Accurate Distillation for Trillion-Scale Text Matching and Pair Modeling : DiPair
[2021/08] Distilling Transformers for Neural Cross-Domain Search
[2020/06] DeBERTa: Decoding-enhanced BERT with Disentangled Attention : DeBERTa
[2020/11] VEGA: Towards an End-to-End Configurable AutoML Pipeline : VEGA
[2020/12] FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding : FILTER
[2019/12] StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding : StructBERT
[2019/04] Improving Multi-Task Deep Neural Networks via Knowledge Distillation for Natural Language Understanding : MT-DNN
[2021/05] Comparing Kullback-Leibler Divergence and Mean Squared Error Loss in Knowledge Distillation
중지
최신 MLLM 관련 스터디. 기본 오후에 진행. 논문, 강의, 코드, 뉴스, 블로그 등 다양한 자료로 학습.
MLLM, LLM, NLG, Dialogue, Reinforcement learning, Distillation, Efficient, Sentence similarity, multiple tasks, multimodal, Stable diffusion, TTS, Text-To-Video, All-To-All, 우주, 생명, 지능, 윤리, 규제, 법, 노화, 의학, 투자, 개발, 인프라, 디자인, 경영, ETC...
유망 스타트업 C레벨, 국내외 탑티어 연구자, 국내외 탑티어 대학, 대학원 재학생과 졸업생, 석학, 교수 등 A급 인재들이 최신 논문, 강의 등 스터디 및 프로젝트 진행.
기본 매주 수요일 오후 7시반. 사전 학습 없이 논문 읽기 최대 20분, 토론 최대 40분. 한 번에 1 ~ 10개 논문, 강의 등 진행. 지금까지는 항상 3개. 주제 논문 선정은 자유. 탑티어 학회 논문 및 프로젝트 제작 예정.
주말을 포함하여, 거의 매일 추가 스터디 존재. 흥미로운 주제거나 참여 되는 날만 중간에 들어와서 중간에 나가도 무관. 모든 규칙은 협의 가능. 오프라인 모임도 예정. 자율 참여.
| mathématiques | apprentissage automatique | Transformateur | Visage étreint |
|---|---|---|---|
![]() | ![]() | ![]() | |
| mathematics for machine learning | Pattern Recognition and Machine Learning | Getting Started with Google BERT | Natural Language Processing with Transformers |