
Wir sammeln (eine zugegebenermaßen Meinung) Liste von Ressourcen und Fortschritten in der datenzentrierten KI mit aufregenden Richtungen vergangener, gegenwärtiger und Zukunft. In diesem Blog geht es um unsere Reise zur datenzentrierten KI und wir artikulieren, warum wir in diesem Blog über Daten als Standpunkt für KI begeistert sind.
Während die KI ziemlich auf Modelle konzentriert wurde, ist die reale Erfahrung derjenigen, die Modelle in Produktion bringen, häufig wichtiger. Das Ziel dieses Repositorys ist es, diese Erfahrung an einem einzigen Ort zu konsolidieren, auf den alle zugreifen können, der verstehen und zu diesem Bereich beitragen möchte.
Wir sind erst am Anfang und Sie können helfen, indem Sie zu diesem Github beisteuern! Vielen Dank an alle, die bisher beigetragen haben.
Wenn Sie an diesem Bereich interessiert sind und mehr hören möchten, nehmen Sie an unserer Mailingliste teil! Wir würden uns auch zu schätzen wissen, wenn Sie dieses Kurzformular ausfüllen könnten, um uns besser zu verstehen, was Ihre Interessen sein könnten.
Wir erstellen eine Klasse in Stanford über datenzentrierte KI und würden Ihr Feedback lieben. Wenn Sie mehr lernen möchten, füllen Sie dieses Formular bitte aus.
Wenn Sie Ideen haben, wie wir dieses Repository besser machen können, können Sie ein Problem mit Vorschlägen einreichen.
Wir möchten, dass diese Ressource mit Beiträgen von Lesern und Datenbegeisterten wächst. Wenn Sie Beiträge zu diesem Github -Repository leisten möchten, lesen Sie bitte unsere beitragenden Richtlinien.
Hintergrund
Dieser Bereich ist ein Stummel. Sie können helfen, indem Sie ihn verbessern.
Es gibt viel Aufregung darüber, zu verstehen, wie maschinelles Lernen an echten Anwendungsfällen gearbeitet werden kann. Die datenzentrierte KI verkörpert einen bestimmten Standpunkt darüber, wie dieser Fortschritt auftreten kann: indem sie sich darauf konzentrieren, dass es den Praktikern einfacher ist, Datensätze zu verstehen, zu programmieren und zu iterieren, anstatt Zeit für Modelle zu verbringen.
Datenprogrammierung und schwache Überwachungsbereich Seite
Viele moderne maschinelle Lernsysteme erfordern große, beschriftete Datensätze, um erfolgreich zu sein, aber das Erstellen solcher Datensätze ist zeitaufwändig und teuer. Stattdessen werden seit den 90ern schwächere Überwachungsquellen wie Crowdsourcing, entfernte Überwachung und Heuristiken von Domain -Experten wie Hearst -Muster verwendet.
Diese wurden jedoch größtenteils von KI- und KI/ML -Leuten als Ad -hoc oder isolierte Techniken angesehen. Die Bemühungen, diese in einen datenzentrischen Standpunkt zu vereinen und zu kombinieren, begann ernsthaft mit der Programmierung von Datenprogrammierungen, auch als programmatische Kennzeichnung, die in Schnorchel, jetzt ein Open-Source-Projekt und florierendes Unternehmen, verkörpert wurde. Im datenorientierten KI-Ansatz von Snorchel geben Benutzer mehrere Kennzeichnungsfunktionen an, die jeweils eine verrückte Schätzung des Boden-Truth-Etiketts darstellen. Da diese Kennzeichnungsfunktionen in Bezug auf die Genauigkeit und Berichterstattung des Datensatzes unterschiedlich sind und sogar korreliert werden können, werden sie über ein latentes grafisches Modell kombiniert und beenkt. Die technische Herausforderung besteht daher darin, Genauigkeits- und Korrelationsparameter in diesem Modell zu lernen und sie zu verwenden, um das wahre Etikett für nachgeschaltete Aufgaben zu schließen.
Die Datenprogrammierung baut auf einer langen Arbeitenarbeit zur Parameterschätzung in latenten variablen grafischen Modellen auf. Konkret wird ein generatives Modell für die gemeinsame Verteilung der Kennzeichnungsfunktionen und das nicht beobachtete (latente) echte Label gelernt. Dieses Etikettenmodell ermöglicht die Aggregation verschiedener Signalquellen und ermöglicht es ihnen, unterschiedliche Genauigkeiten und potenzielle Korrelationen zu haben.
Dieser Schnorchel -Blog -Beitrag enthält einen Überblick über die schwache Überwachung, einschließlich der Vergleich mit anderen Ansätzen, um mehr beschriftete Daten und die technischen Modellierungsherausforderungen zu erhalten. Diese Stanford CS229 -Vorlesungsnotizen bieten eine theoretische Zusammenfassung, wie grafische Modelle in schwacher Überwachung verwendet werden.
Daten Augmentationsbereich Seite
Eine wichtige Herausforderung beim Training von maschinellem Lernmodellen ist das Sammeln eines großen, vielfältigen Datensatzes, der die in der reale Welt beobachtete Variabilität ausreichend erfasst. Aufgrund der Kosten für das Sammeln und Kennzeichnen von Datensätzen hat sich die Datenvergrößerung als billige, vielversprechende Alternative herausgestellt.
Die zentrale Idee bei der Datenerweiterung besteht darin, Beispiele in einem vorhandenen Datensatz zu transformieren, um zusätzliche Augmented -Beispiele zu generieren, die dann dem Datensatz hinzugefügt werden können. Diese zusätzlichen Beispiele erhöhen typischerweise die Vielfalt der vom Modell gesehenen Daten und bieten zusätzliche Aufsicht für das Modell. Die Grundlagen der Datenvergrößerung stammen aus der Tangentenverbreitung, die Techniken einführte, um ein gelerntes Modell in Bezug auf eine gewisse Transformation der Daten invariant zu machen.
Frühe Erfolge in der Augmentation wie Alexnet konzentrierten sich auf die Verderbung von Invariellen in einem Image -Klassifikator, indem Beispiele generiert wurden, die translationale oder rotationale Invarianz fördern. Diese Erfolge machten die Vergrößerung zu einem de-fakto-Teil der Pipelines für eine umfassende Reihe von Aufgaben wie Bild-, Sprach- und Textklassifizierung, maschinelle Übersetzung usw.
Die Wahl der in der Augmentation verwendeten Transformationen sind eine wichtige Überlegung, da sie die vom Modell gelernten Invarianzen und ihr Verhalten bei der Begegnung einer Vielfalt von Testbeispielen bestimmt. Während heuristische Augmentationen populär geblieben sind, ist es wichtig, die Augmentation -Pipeline sorgfältiger zu kontrollieren und zu programmieren. Tanda leitete eine Studie über das Problem der Programmiervergrößerungspipelines durch, indem eine Auswahl der Datenumwandlungen komponiert wurde. In diesem Bereich wurde seitdem ein schnelles Wachstum mit einem tieferen theoretischen Verständnis und praktischen Implementierungen wie der Autoaugment verzeichnet. Eine aufstrebende Arbeiten haben bedingte generative Modelle, die zu lernen als angeben-diese Transformationen genutzt und dieses Programmierparadigma weiter erweitert.
SELTER-SUPERVISION-Bereich Seite
Die Notwendigkeit großer, beschrifteter Datensätze hat die Methoden motiviert, latente Darstellungen des Eingaberaums unter Verwendung von unbezeichneten Daten vorzubeugen und die resultierenden wissensreichen Darstellungen in nachgeschalteten Aufgaben zu verwenden. Da die Darstellungen den Wissenstransfer in nachgeschaltete Aufgaben ermöglichen, erfordern diese Aufgaben weniger beschriftete Daten. Dieses Paradigma, das als "Selbst-Supervision" bezeichnet wird, hat revolutioniert, wie wir Modelle (und vor dem Training) trainieren. Diese Modelle, die kürzlich als "Stiftungsmodelle" von der Stanford-Initiative über das Verständnis von selbst überprüften Ökosystemen bezeichnet werden, haben sich von handgefertigten Daten abgeschaltet, um zu verstehen, welche Daten diesen Modellen zugefügt werden.
Da selbstbewertete Daten häufig aus großen, öffentlichen Datenquellen (z. B. Wikipedia) kuratiert werden, kann sie Popularitätsverzerrungen enthalten, bei der der lange Schwanz seltener Dinge in den Trainingsdaten nicht gut dargestellt wird. Als Orr et. al. Zeigen Sie, einige beliebte Modelle (z. B. Bert) verlassen sich auf Kontextauswendungen und kämpfen, um diesen langen Schwanz zu lösen, da sie nicht in der Lage sind, etwas selten genug zu sehen, um sich die verschiedenen damit verbundenen Muster zu merken. Das Problem des langen Schwanzes verbreitet sich sogar zu nachgeschalteten Aufgaben, wie zum Beispiel zu Abrufaufgaben von Amber. Eine aufregende zukünftige Richtung, die an der Schnittstelle von KI und Jahren der Forschung der Datenmanagement -Community liegt, um den langen Schwanz anzugehen, ist die Integration von strukturiertem Wissen in das Modell. Strukturiertes Wissen ist die Kernidee für den Schwanzerfolg von Bootleg, einem System für die namens Disambiguation.
Das Ende der Modellitisseite Seite
In der Vergangenheit baut und optimiert das "Kind in a Candy Shop" -Moment für ML -Forscher Modelle mit Tools wie Pytorch oder Jax. Jeden Tag kamen neue Modelle heraus, und diese passen Modellarchitekturen und fein abgestimmte Parameter an den neuesten Ergebnissen. Diese Modellitis -Begeisterung endet jedoch.
In jüngster Zeit haben Forscher zwei Dinge erkannt: (1) Weitere Gewinne ergeben sich aus dem zutiefst Verständnis der Daten als den Modell -Optimierungen (siehe alle aufregenden Arbeiten in der Datenerweiterung). Umfeld. Dies führte zu Modellbuilding -Plattformen wie Ludwig und Overton, die die Architekturen für die Commoditisierung durchsetzten, und sich zu ML -Systemen bewegten, die deklarativ Molino und Ré 2021 erstellt werden können. Und sie zeigten, dass diese Commoditiy -Modelle sogar noch besser waren als ihre abgestimmten Vorgänger! Dieses Ergebnis wurde weiter von Kaplan et al., Die zeigten, dass die Architekturangelegenheiten weniger als die Daten sind.
Dieser Trend, den wir als Ende der Modellitis bezeichnen, bewegt sich zu einer datenzentrierten Sichtweise der Modellkonstruktion. Die Frage ist, sich von "Wie man das beste Modell erstellt" zu "Wie fütterst du ein Modell?"
Bewertungsbereich Seite
Die Modellbewertung ist ein entscheidender Bestandteil des Modellentwicklungsprozesses im maschinellen Lernen. Ziel der Bewertung ist es, die Qualität eines Modells zu verstehen und zu antizipieren, ob es in Zukunft gut abschneiden wird.
Während die Bewertung ein klassisches Problem im maschinellen Lernen ist, haben datenorientierte KI-Ansätze eine Verschiebung in Richtung feinkörniger Bewertung katalysiert: Übergang über die Standardmessungen der durchschnittlichen Leistung wie Genauigkeit und F1-Scores zur Messung der Leistung in bestimmten interessierenden Bevölkerungsgruppen. Dies ermöglicht ein detaillierteres Verständnis der Modellleistung und bietet den Benutzern eine klarere Vorstellung von Modellfunktionen. Diese Verschiebung ergänzt sich zu einem wachsenden Interesse am Verständnis der Robustheit des Modells, da der Zugang zu feinkörniger Bewertung eine verbesserte Fähigkeit ermöglicht, robustere Modelle aufzubauen.
Zu den Ansätzen zur feinkörnigen Bewertung gehören die Messung der Leistung an kritischen Datenuntergruppen, die Slices, Invarianz oder Empfindlichkeit gegenüber Datenumwandlungen sowie Widerstand gegen kontroverse Störungen. Während die meisten Bewertungen benutzerspezifisch sind, ergab eine wichtige Arbeitslinie, dass Modelle häufig versteckte Schichten unterdurchschnittlich unterdurchschnittlich von Modellbauern in der Bewertung übersehen werden, was tiefgreifende Konsequenzen für unsere Fähigkeit zur Bereitstellung und Verwendung von Modellen haben kann. Dies motiviert zukünftige Arbeiten, diese verborgenen Schichten automatisch zu entdecken, oder allgemeiner alle möglichen Fehlermodi eines Modells durch Analyse von Datensätzen und Modellen systematisch in Verbindung.
Eine weitere wichtige Facette der feinkörnigen Bewertung ist die Daten- und Modellüberwachung, um Abbau der Leistungsverschiebung aufgrund der Verteilungsverschiebung zu antizipieren, zu messen und zu mildern. Dies beinhaltet die Identifizierung und Isolierung von Datenpunkten, die als Ausreißer betrachtet werden können, die Schätzung der Leistung bei nicht markierten Daten, die zu einem bereitgestellten Modell gestreamt werden, und die generierende Zusammenfassungen der Datenverteilung im Laufe der Zeit zu generieren.
Robustheit Bereichsseite
Eine Standardannahme für die erfolgreiche Bereitstellung von Modellen für maschinelles Lernen ist, dass die Testzeitverteilungen denen ähneln und während des Trainings gut vertreten sind. In Wirklichkeit gilt diese Annahme jedoch selten: Selten erwarten wir, Modelle in Einstellungen bereitzustellen, die genau ihren Trainingsverteilungen entsprechen. Trainingsmodelle, die für Verteilungsverschiebungen robust sind, ist dann eine weitere zentrale Herausforderung zur Verbesserung des maschinellen Lernens in freier Wildbahn.
Hier kategorisieren wir die Versuche, die Robustheit gegenüber Verteilungsverschiebungen zu verbessern, als diejenigen, die sich (1) Subpopulationsverschiebung oder versteckte Schichtung, (2) Domänenverschiebung und (3) Verschiebungen von kontroversen Störungen befassen.
Unter der Verschiebung der Subpopulation unterscheiden sich die Schulungs- und Testzeitverteilungen darin, wie gut die einzelnen Subpopulationen oder „Datengruppen“ vertreten sind. Wenn bestimmte Subpopulationen in den Trainingsdaten unterrepräsentiert sind, können selbst wenn diese Verteilungen während des Trainings auftreten, die minimierende Standard -empirische Risiko -Minimierung (ERM) und das „Lernen aus statistischen Durchschnittswerten“ zu Modellen führen, die nur eine gute Leistung bei den überrepräsentierten Subpopulationen erzielen.
Sowohl die Gruppe DRO als auch George führten Ansätze ein, um die Verschiebung der Subpopulation unter realen Instanziationen zu bewältigen. Diese Methoden haben zusätzliche Arbeiten im Zusammenhang mit upsampling geschätzten Gruppen (LFF, JTT) inspiriert und kontrastives Lernen zum Erlernen von Gruppeninvarianten -Darstellungen (CNC - Link in Kürze).
Über die Verschiebung der Subpopulation hinaus verfügt Robustheit auch Domänenverschiebung und kontroverse Störungen. Unter Domänenverschiebung modellieren wir Testzeitdaten als aus einer völlig anderen Domäne als die Trainingsdaten. Bei Verteilungsverschiebung mit kontroversen Störungen können Testzeitdaten Korruptionen oder nicht wahrnehmbare Unterschiede im Eingangsmerkmal aufweisen, die verhindern, dass geschulte ERM-Modelle stark auf die Testzeitverteilungen verallgemeinert werden. Diese wichtigen Abschnitte sind immer noch Stummel. Bitte fügen Sie Ihre Beiträge hinzu!
Seite der Datenreinigungsbereich
Eine weitere Möglichkeit, die Datenqualität für ML/AI -Anwendungen zu verbessern, besteht darin, die Datenreinigung zu erhalten. Es gibt eine Vielzahl von aufregenden Arbeiten entlang dieser Linie, um die Datenreinigung und maschinelles Lernen gemeinsam zu verstehen.
MLOPS -Bereichsseite
Die zentrale Rolle von Daten macht die Entwicklung und Bereitstellung von ML/AI-Anwendungen zu einem Prozess des Menschen in der Regel. Dies ist ein komplexer Prozess, bei dem menschliche Ingenieure Fehler machen, Anleitung erfordern oder gewarnt werden müssen, wenn etwas Unerwartetes passiert. Das Ziel von MLOPS ist es, prinzipielle Möglichkeiten für das Management, die Überwachung und die Validierung von Lebenszyklus zu bieten.
Die Forscher haben begonnen, diese Herausforderungen zu bewältigen, indem sie neue Techniken und Gebäudesysteme wie TFX, Easy.ML oder Overton entwickelt haben, um den gesamten Lebenszyklus eines maschinellen Lernmodells sowohl während der Entwicklung als auch in der Produktion zu bewältigen. Diese Systeme bestehen typischerweise aus unterschiedlichen Komponenten, die für die Handhabung bestimmter Stufen (z. B. Vor- oder Nach-Training) oder Aspekte (z. B. Überwachung oder Debuggen) von MLOPS zuständig sind.
Datenauswahlseite Seite
Massive Datenmengen ermöglichten viele der Erfolge von Deep Learning, aber diese Big Data bringt seine eigenen Probleme mit sich. Die Arbeit mit massiven Datensätzen ist im Hinblick auf Rechenressourcen und Kennzeichnungen umständlich und teuer. Datenauswahlmethoden wie aktives Lernen und Kernauswahl können die Schmerzen von Big Data mildern, indem die wertvollsten Beispiele zum Kennzeichnen oder Training ausgewählt werden.
Während die Datenauswahl ein langjähriges Gebiet in KI/ML war, haben die Skala und Verschleierung der modernen, industriellen Datensätze das Feld dazu veranlasst, Daten genauer zu schätzen und die Skalierbarkeit von Auswahlmethoden zu verbessern. Jüngste Arbeiten wie (Sener & Savarese und Ghorbani et al.) Um diese Methoden zu skalieren, bieten Ansätze wie SVP und Siegel direkte Möglichkeiten, um die Rechenkosten um bis zu drei Größenordnungen zu senken, wodurch das aktive Lern- und Datenauswahl im Webmaßstab weiterhin geführt wird.
Diese Fortschritte in der Etikett- und Recheneffizienz tauchen die Datenauswahl für moderne Datensätze an, sodass KI/ML eher datenorientiertes Ansicht auf Qualität als auf Quantität ausgerichtet ist.
Seite Datenschutzbereich
Diese Beschreibung ist ein Stummel. Sie können helfen, indem Sie sie verbessern.
Datenflussfläche Seite
Dieser Bereich ist ein Stummel. Sie können helfen, indem Sie ihn verbessern.
Multi-Task- und Multi-Domänen-Lernbereich Seite
Dieser Bereich ist ein Stummel. Sie können helfen, indem Sie ihn verbessern.
Aufstrebende Trendsfläche Seite
Die datenzentrierte KI wächst immer noch und wir möchten aufkommende Trends erfassen, während sie entstehen. Einige neue Bereiche, von denen wir glauben, dass sie interaktives maschinelles Lernen, Modelle der Massize -Skala und Beobachtungs -ML beinhalten. Schauen Sie sich die Bereichseite an.
Anwendungsbereich Seite
Datenorientierte Ansätze hatten einen weitreichenden Einfluss, wo immer maschinelles Lernen verwendet und eingesetzt wird, sei es in der Wissenschaft, in der Industrie oder in anderen Organisationen. Impact Spans -Modalitäten wie strukturierte Daten, Text, Bilder, Videos, Diagramme und andere Bereiche, während Bereiche Text- und Bildverarbeitung, medizinische Bildgebung, Computerbiologie, autonomes Fahren usw. umfassen