
Nous collectons (une liste des ressources et des progrès réalisés) dans l'IA centrée sur les données, avec des directions passionnantes passées, présentes et futures. Ce blog parle de notre parcours vers l'IA centrée sur les données et nous expliquons pourquoi nous sommes ravis des données comme point de vue pour l'IA dans ce blog.
Bien que l'IA ait été assez axée sur les modèles, l'expérience du monde réel de ceux qui mettent des modèles en production est que les données sont souvent plus importantes. Le but de ce référentiel est de consolider cette expérience en un seul endroit qui peut être accessible par quiconque veut comprendre et contribuer à ce domaine.
Nous ne sommes qu'au début, et vous pouvez aider en contribuant à ce github! Merci à tous ceux qui ont contribué jusqu'à présent.
Si vous êtes intéressé par ce domaine et que vous souhaitez en savoir plus, rejoignez notre liste de diffusion! Nous apprécierions également si vous pouviez remplir ce court formulaire pour nous aider à mieux comprendre quels pourraient être vos intérêts.
Nous créons une classe à Stanford sur l'IA centrée sur les données, et nous serions ravis de vos commentaires. Si vous souhaitez en savoir plus, veuillez remplir ce formulaire.
Si vous avez des idées sur la façon dont nous pouvons améliorer ce référentiel, n'hésitez pas à soumettre un problème avec des suggestions.
Nous voulons que cette ressource se développe avec les contributions des lecteurs et des amateurs de données. Si vous souhaitez apporter des contributions à ce référentiel GitHub, veuillez lire nos directives de contribution.
Arrière-plan
Cette zone est un talon, vous pouvez aider en l'améliorant.
Il y a beaucoup d'excitation concernant la compréhension de la façon de mettre l'apprentissage automatique pour travailler sur de véritables cas d'utilisation. L'IA axée sur les données incarne un point de vue particulier sur la façon dont ces progrès peuvent se produire: en se concentrant sur la facilité de comprendre, le programme et les itération des ensembles de données, au lieu de passer du temps sur des modèles.
Programmation de données et page de supervision faible
De nombreux systèmes d'apprentissage automatique modernes nécessitent de grands ensembles de données étiquetés pour réussir, mais produire de tels ensembles de données est long et coûteux. Au lieu de cela, des sources de supervision plus faibles, telles que le crowdsourcing, la supervision lointaine et l'heuristique des experts du domaine, comme les modèles Hearst, ont été utilisées depuis les années 90.
Cependant, ceux-ci étaient largement considérés par les gens d'IA et d'IA / ML comme des techniques ad hoc ou isolées. L'effort pour les unifier et les combiner dans un point de vue centré sur les données a commencé sérieusement avec la programmation de données alias étiquetage programmatique, incarné dans de la plongée, maintenant un projet open source et une entreprise prospère. Dans l'approche AI centrée sur les données de tuba, les utilisateurs spécifient plusieurs fonctions d'étiquetage qui représentent chacune une estimation bruyante de l'étiquette au sol. Étant donné que ces fonctions d'étiquetage varient en précision et en couverture de l'ensemble de données et peuvent même être corrélées, elles sont combinées et débouchées via un modèle graphique variable latent. Le défi technique est donc d'apprendre la précision et les paramètres de corrélation dans ce modèle, et de les utiliser pour déduire la véritable étiquette à utiliser pour les tâches en aval.
La programmation de données s'appuie sur une longue ligne de travail sur l'estimation des paramètres dans les modèles graphiques variables latentes. Concrètement, un modèle génératif pour la distribution conjointe des fonctions d'étiquetage et l'étiquette vraie non observée (latente) est apprise. Ce modèle d'étiquette permet l'agrégation de diverses sources de signal, tout en leur permettant d'avoir des précisions variables et des corrélations potentielles.
Cet article de blog sur tuba contient un aperçu de la faible supervision, y compris la façon dont il se compare à d'autres approches pour obtenir plus de données étiquetées et les défis de la modélisation technique. Ces notes de cours Stanford CS229 fournissent un résumé théorique de la façon dont les modèles graphiques sont utilisés dans une supervision faible.
Page de zone d'augmentation des données
Un défi clé lors de la formation des modèles d'apprentissage automatique consiste à collecter un ensemble de données important et diversifié qui capture suffisamment la variabilité observée dans le monde réel. En raison du coût de collection et d'étiquetage des ensembles de données, l'augmentation des données est devenue une alternative bon marché et prometteuse.
L'idée centrale de l'augmentation des données est de transformer des exemples dans un ensemble de données existant pour générer des exemples augmentés supplémentaires qui peuvent ensuite être ajoutés à l'ensemble de données. Ces exemples supplémentaires augmentent généralement la diversité des données observées par le modèle et fournissent une supervision supplémentaire au modèle. Les fondements de l'augmentation des données proviennent d'une propagation tangente, qui a introduit des techniques pour rendre un modèle appris invariant par rapport à une certaine transformation des données.
Les premiers succès en augmentation tels que Alexnet se sont concentrés sur l'induction des invariances dans un classificateur d'images en générant des exemples qui encourageaient l'invariance de translation ou de rotation. Ces succès ont fait de l'augmentation une partie de facto des pipelines pour un large ensemble de tâches telles que l'image, la classification de la parole et du texte, la traduction automatique, etc.
Le choix des transformations utilisés en augmentation est une considération importante, car elle dicte les invariances apprises par le modèle, et son comportement lors de la rencontre d'une diversité d'exemples de test. Bien que les augmentations heuristiques soient restées populaires, il est important de pouvoir contrôler et programmer le pipeline d'augmentation plus attentivement. Tanda a lancé une étude du problème des pipelines d'augmentation de programmation en composant une sélection de transformations de données. Ce domaine a depuis connu une croissance rapide avec à la fois une compréhension théorique plus profonde et des implémentations pratiques telles que l'autoaugment. Une ligne de travail naissante a exploité des modèles génératifs conditionnels à apprendre - plutôt que spécifier - ces transformations, étendant davantage ce paradigme de programmation.
Page de zone d'auto-supervision
La nécessité de grands ensembles de données étiquetés a motivé des méthodes pour pré-entraîner les représentations latentes de l'espace d'entrée à l'aide de données non étiquetées et utiliser les représentations riches en connaissances résultantes dans les tâches en aval. Comme les représentations permettent le transfert de connaissances aux tâches en aval, ces tâches nécessitent moins de données étiquetées. Ce paradigme, appelé "auto-sumission", a révolutionné la façon dont nous entraînons (et prétraitement). Ces modèles, qui sont récemment appelés «modèles de fondation» par l'initiative de Stanford concernant la compréhension des écosystèmes auto-levés, ont éloigné de l'attention des données marquées à la main pour comprendre les données à avoir alimentées à ces modèles.
Comme les données auto-supervisées sont souvent organisées à partir de grandes sources de données publiques (par exemple, Wikipedia), il peut contenir un biais de popularité où la longue queue des choses rares ne sont pas bien représentées dans les données de formation. Comme orr et. al. Montrez, certains modèles populaires (par exemple, Bert) s'appuient sur la mémorisation de contexte et luttent pour résoudre cette longue queue car ils sont incapables de voir une chose rare suffisamment de fois pour mémoriser l'ensemble diversifié de modèles qui y sont associés. Le problème de la longue queue se propage même aux tâches en aval, comme les tâches de récupération d'Amber. Une orientation future passionnante qui se trouve à l'intersection de l'IA et des années de recherche de la communauté de gestion des données pour aborder la longue queue est par l'intégration des connaissances structurées dans le modèle. La connaissance structurée est l'idée principale derrière le succès de la queue de Bootleg, un système de désambiguïsation de l'entité nommée.
La page de la zone de la modélite
Historiquement, le moment "Kid in a Candy Shop" pour les chercheurs de ML construit et ajusté des modèles à l'aide d'outils comme Pytorch ou Jax. De nouveaux modèles sortaient chaque jour et ces architectures de modèle personnalisés et des paramètres finement réglés battaient les résultats de pointe. Cet engouement de la modélite, cependant, touche à sa fin.
Récemment, les chercheurs ont réalisé deux choses: (1) plus de gains proviennent de la compréhension approfondie des données plutôt que des ajustements de modèles (voir tous les travaux passionnants en augmentation des données), et (2) les modèles personnalisés sont difficiles à maintenir et à étendre dans une production environnement. Cela a abouti à des plates-formes de construction de modèles comme Ludwig et Overton qui ont appliqué des architectures marchandises, et se sont dirigées vers des systèmes ML qui peuvent être créés de manière déclarative Molino et RÉ 2021. Et ils ont montré que ces modèles de marchandise étaient encore meilleurs que leurs prédécesseurs réglés! Ce résultat a en outre été étayé par Kaplan et al qui ont montré que l'architecture est inférieure à celle des données.
Cette tendance, que nous appelons la fin de la modélite, se dirige vers une vue centrée sur les données de la construction du modèle. La question consiste à passer de «comment construire le meilleur modèle» à «comment alimenter un modèle».
Page de zone d'évaluation
L'évaluation du modèle est une partie cruciale du processus de développement du modèle dans l'apprentissage automatique. L'objectif de l'évaluation est de comprendre la qualité d'un modèle et d'anticiper si elle fonctionnera bien à l'avenir.
Bien que l'évaluation soit un problème classique dans l'apprentissage automatique, les approches d'IA centrées sur les données ont catalysé un changement vers une évaluation à grains fins : dépasser les mesures standard des performances moyennes telles que la précision et les scores F1, à la mesure des performances sur des populations particulières d'intérêt. Cela permet une compréhension plus granulaire des performances du modèle et donne aux utilisateurs une idée plus claire des capacités du modèle. Ce changement est complémentaire à un intérêt croissant pour la compréhension de la robustesse du modèle, car l'accès à une évaluation à grain fin permet à une capacité améliorée de créer des modèles plus robustes.
Les approches de l'évaluation à grains fins comprennent la mesure des performances sur les sous-ensembles de données critiques appelés tranches, l'invariance ou la sensibilité aux transformations des données et la résistance aux perturbations adversaires. Bien que la majeure partie de l'évaluation soit spécifiée par l'utilisateur, une ligne de travail importante a révélé que les modèles sous-performent souvent sur des strates cachées qui sont manquées par les constructeurs de modèles dans l'évaluation, ce qui peut avoir des conséquences profondes sur notre capacité à déployer et à utiliser des modèles. Cela motive les travaux futurs pour découvrir automatiquement ces strates cachées, ou plus généralement, trouver tous les modes de défaillance possibles d'un modèle en analysant les ensembles de données et les modèles systématiquement conjointement.
Une autre facette importante de l'évaluation à grains fins est la surveillance des données et des modèles afin d'anticiper, de mesurer et d'atténuer les dégradations des performances dues au décalage de la distribution. Cela inclut l'identification et l'isolement des points de données qui peuvent être considérés comme des valeurs aberrantes, l'estimation des performances sur des données non marquées qui diffusent sur un modèle déployé et générer de riches résumés de la façon dont la distribution des données peut se déplacer au fil du temps.
Page de zone de robustesse
Une hypothèse standard pour le déploiement de modèles d'apprentissage automatique est que les distributions de temps de test sont similaires à celles rencontrées et bien représentées pendant la formation. En réalité cependant, cette hypothèse est rarement soutenue: nous nous attendons rarement à déployer des modèles dans des paramètres qui correspondent exactement à leurs distributions d'entraînement. Les modèles de formation robustes aux changements de distribution sont alors un autre défi de base pour améliorer l'apprentissage automatique dans la nature, ce qui, selon nous, peut être abordé sous un paradigme centré sur les données.
Ici, nous classons largement les tentatives d'amélioration de la robustesse des changements de distribution en tant que celles traitant (1) décalage de sous-population ou stratification cachée, (2) décalage de domaine et (3) changements de perturbations adversaires.
En vertu de la sous-population, les distributions de formation et de test diffèrent dans la façon dont chaque sous-population ou «groupe de données» est bien représenté. Si certaines sous-populations sont sous-représentées dans les données de formation, alors même si ces distributions sont rencontrées pendant la formation, la minimisation des risques empiriques standard (ERM) et «l'apprentissage des moyennes statistiques» peuvent entraîner des modèles qui ne fonctionnent que bien sur les sous-populations surreprésentées.
Le groupe DRO et George ont introduit des approches pour gérer le changement de sous-population sous des instanciations réelles. Ces méthodes ont inspiré des travaux supplémentaires liés à l'échantillonnage des groupes estimés (LFF, JTT) et en utilisant l'apprentissage contrasté pour apprendre les représentations invariantes du groupe (lien CNC - à venir bientôt).
Au-delà du décalage de sous-population, la robustesse dispose également de décalage de domaine et de perturbations adversaires. Sous le décalage du domaine, nous modélissons les données de temps de test comme provenant d'un domaine complètement différent des données de formation. En vertu du décalage de distribution avec des perturbations adversaires, les données de temps de test peuvent présenter des corruptions ou des différences imperceptibles dans l'espace des caractéristiques d'entrée qui empêchent les modèles ERM formés de généraliser fortement aux distributions de temps de test. Ces sections importantes sont toujours des talons. Veuillez ajouter vos contributions!
Page de zone de nettoyage des données
Une autre façon d'améliorer la qualité des données pour les applications ML / AI est via le nettoyage des données. Il existe une gamme diversifiée de travaux passionnants le long de cette ligne pour comprendre conjointement le nettoyage des données et l'apprentissage automatique.
Page de zone Mlops
Le rôle central des données fait du développement et du déploiement des applications ML / AI un processus humain en boucle. Il s'agit d'un processus complexe dans lequel les ingénieurs humains pourraient faire des erreurs, nécessiter des conseils ou doivent être avertis lorsque quelque chose d'inattendu se produit. L'objectif des MOPL est de fournir des moyens de principe de gestion du cycle de vie, de surveillance et de validation.
Les chercheurs ont commencé à relever ces défis en développant de nouvelles techniques et des systèmes de construction tels que TFX, Ease.ML ou Overton conçu pour gérer l'ensemble du cycle de vie d'un modèle d'apprentissage automatique pendant le développement et en production. Ces systèmes sont généralement constitués de composants distincts en charge de la gestion des étapes spécifiques (par exemple, pré ou post-formation) ou des aspects (par exemple, surveillance ou débogage) de MOPL.
Page de zone de sélection des données
Des quantités massives de données ont permis de nombreux succès de l'apprentissage en profondeur, mais ce Big Data apporte ses propres problèmes. Travailler avec des ensembles de données massifs est lourd et coûteux en termes de ressources de calcul et d'étiquetage. Les méthodes de sélection des données, telles que l'apprentissage actif et la sélection de core-ensemble, peuvent atténuer les douleurs des mégadonnées en sélectionnant les exemples les plus précieux pour étiqueter ou s'entraîner.
Bien que la sélection des données ait été un domaine de longue date dans l'IA / ml, l'échelle et le biais des ensembles de données industriels modernes ont poussé le champ à évaluer plus précisément les données et à améliorer l'évolutivité des méthodes de sélection. Des travaux récents, tels que (Sener & Savarese et Ghorbani et al.), Adoptent une approche plus centrée sur les données pour quantifier la contribution de chaque exemple de formation en se concentrant sur la diversité et la représentativité plutôt que de se fier uniquement à l'incertitude du modèle. Pour aider ces méthodes à évoluer, les approches, comme SVP et SEAL, présentent des moyens simples de réduire les coûts de calcul jusqu'à trois ordres de grandeur, permettant plus largement l'apprentissage actif et la sélection des données à l'échelle du Web.
Ces progrès dans l'étiquette et l'efficacité de calcul rendent la sélection des données applicable aux ensembles de données modernes, permettant à l'IA / ML de prendre une vue plus centrée sur les données axée sur la qualité plutôt que sur la quantité.
Page de zone de confidentialité des données
Cette description est un talon, vous pouvez aider en l'améliorant.
Page de zone de flux de données
Cette zone est un talon, vous pouvez aider en l'améliorant.
Page de zone d'apprentissage multi-tâches et multi-domaines
Cette zone est un talon, vous pouvez aider en l'améliorant.
Page de zone des tendances émergentes
L'IA centrée sur les données augmente toujours et nous voulons capturer les tendances émergentes à mesure qu'elles surviennent. Certains nouveaux domaines que nous pensons se forment impliquent l'apprentissage machine interactif, les modèles à l'échelle de masse et l'observation du ML. Jetez un œil à la page de la zone.
Page de zone des applications
Les approches centrées sur les données ont eu un impact à large étendue partout où l'apprentissage automatique est utilisé et déployé, que ce soit dans le monde universitaire, l'industrie ou d'autres organisations. L'impact s'étend sur les modalités telles que les données structurées, le texte, les images, les vidéos, les graphiques et autres, tandis que les domaines incluent le traitement du texte et de l'image, l'imagerie médicale, la biologie informatique, la conduite autonome, etc.