Generative AI Tutorial Download - Generative AI Tutorial Quellcode herunterladen

Generative AI Tutorial

Anderer Quellcode

1.0.0

Herunterladen

Generative AI Roadmap

Ein subjektiver Lernhandbuch für generative KI -Forschung, einschließlich kuratierter Liste von Artikeln und Projekten

Generative AI ist heute ein heißes Thema, und diese Roadmap soll Anfängern helfen, schnell Grundkenntnisse zu erlangen und nützliche Ressourcen für generative KI zu finden. Sogar Experten können sich gerne auf diese Roadmap beziehen, um alte Kenntnisse zu erinnern und neue Ideen zu entwickeln.

Inhaltstabelle

Hintergrundwissen
- Neuralnetzwerke Inferenz und Schulung
- Transformatorarchitektur
- Häufige transformatorbasierte Modelle
- Verschiedenes
Großspracher Modelle (LLMs)
- Vorab- und Feinabstimmung
- Aufforderung
- Auswertung
- Umgang mit langem Kontext
- Effiziente Feinabstimmung
- Modellverführung
- Effiziente Generation
- Wissensbearbeitung
- LLM-Betroffene
- Ergebnisse
- Offene Herausforderungen
Diffusionsmodelle
- Bildgenerierung
- Videogenerierung
- Audiogeneration
- Vorab- und Feinabstimmung
- Auswertung
- Effiziente Generation
- Wissensbearbeitung
- Offene Herausforderungen
Große multimodale Modelle (LMMs)
- Modellarchitekturen
- Auf verkörperte Agenten
- Offene Herausforderungen
Jenseits von Transformatoren
- Implizit strukturierte Parameter
- Neue Modellarchitekturen

Hintergrundwissen

Dieser Abschnitt soll Ihnen dabei helfen, das Grundkenntnis der neuronalen Netze (z. B. Backpropagation) zu lernen oder zurückzugewinnen, Sie mit der Transformatorarchitektur vertraut zu machen und einige gemeinsame Transformator-basierte Modelle zu beschreiben.

Neuralnetzwerke Inferenz und Schulung

Kennen Sie die folgenden klassischen neuronalen Netzwerkstrukturen sehr?

Multi-Layer-Perzeptron (MLP)
Faltungsnetzwerk (CNN)
Wiederkehrendes neuronales Netzwerk (RNN)

In diesem Fall sollten Sie in der Lage sein, diese Fragen zu beantworten:

Warum funktionieren CNNs besser als MLPs auf Bildern?
Warum funktionieren RNNs besser als MLPs in Zeitreihen Daten?
Was ist der Unterschied zwischen Gru und LSTM?

Backpropagation (BP) ist die Basis des NN -Trainings. Sie werden kein KI -Experte sein, wenn Sie BP nicht verstehen . Es gibt viele Lehrbücher und Online -Tutorials, die BP lehren, aber leider präsentieren die meisten keine Formeln in vektorisierten/geprägten Formen. Die BP -Formel einer NN -Schicht ist in der Tat so ordentlich wie ihre Vorwärtspassformel. Genau so wird BP implementiert und sollte implementiert werden. Um BP zu verstehen, lesen Sie bitte die folgenden Materialien:

Neuronale Netze und tiefes Lernen [Kapitel 3.2, insbesondere 3.2.6]
MEPROP: Sparifizierte Rückverbreitung für beschleunigtes Deep -Lernen mit reduzierter Überanpassung (ICML 2017) [Abschnitt 2.1]
RESPROP: Sparifizierte Rückpropagation wiederverwenden (CVPR 2020) [Abschnitt 3.1]

Wenn Sie BP verstehen, sollten Sie in der Lage sein, diese Fragen zu beantworten:

Wie werden Sie den Blutdruck einer Faltungsschicht beschreiben?
Wie ist das Verhältnis der Rechenkosten (dh Anzahl der schwimmenden Punktvorgänge) zwischen dem Vorwärtspass und dem Rückwärtspass einer dichten Schicht?
Wie werden Sie den Blutdruck eines MLP mit zwei dichten Schichten beschreiben, die die gleiche Gewichtsmatrix teilen?

Transformatorarchitektur

Transformator ist die Basisarchitektur vorhandener großer generativer Modelle. Es ist notwendig, jede Komponente im Transformator zu verstehen. Bitte lesen Sie die folgenden Materialien:

Achtung ist alles, was Sie brauchen (Neurips 2017) [Originalpapier]
Transformator Erklärer: Interaktives Lernen von Text-generativen Modellen [ein interaktives Tutorial]
Ein Bild ist 16x16 Wörter wert: Transformatoren für die Bilderkennung im Maßstab (ICLR 2021) [Vision Transformator]
Neuronale maschinelle Übersetzung mit einem Transformator und Keras [großartige Erklärung für Multihead -Aufmerksamkeit (MHA)]
Flops eines Transformatorblocks [Üben Sie üben, Flops zu berechnen]
Schnelltransformator Decodierung: Ein Schreibkopf ist alles, was Sie brauchen [Multiquery Achtung (MQA)]
GQA: Schulungsverallgemeinerung verallgemeinerter Multiquery-Transformatormodelle von mehrköpfigen Kontrollpunkten [Aufmerksamkeitsgeschäfte (gruppy-query acht (gQA)]]
Verbesserter Transformator mit der Einbettung der Rotationsposition [Positionseinbettung verstehen]
Rotary -Einbettungen: Eine relative Revolution [Verstehe Positionseinbettung]
Lehrerzweck gegen geplante Probenahme im Vergleich zum normalen Modus [Lehrerantrieb in der Transformatorausbildung]
FlexGen: Hochdurchsatz generative Inferenz von Großsprachenmodellen mit einer einzelnen GPU [siehe Abschnitt 3 - Generative Inferenz, um zu erfahren, wie LLMs die Peform -Erzeugung basierend auf KV Cache]
Kontextpositionskodierung: Lernen, zu zählen, was wichtig ist [kontextabhängige Positionscodierung]

Wenn Sie Transformers verstehen, sollten Sie in der Lage sein, diese Fragen zu beantworten:

Was sind die Vor- und Nachteile von Tranformern im Vergleich zu RNNs？ (gleichzeitig anwesend, Schulung der Parallelität, Komplexität)
Können Sie die Flops von GQA kakulieren? Sehen Sie, wann sich auf MHA und MQA verschlechtert?
Was ist die Motivation von MQA und GQA?
Wie sieht die kausale Aufmerksamkeitsmaske aus und warum?
Wie werden Sie das Training von Decodierer-Transformatoren Schritt für Schritt beschreiben?
Warum ist Seil besser als sinusförmige Positionscodierung?

Häufige transformatorbasierte Modelle

Lernen übertragbarer visueller Modelle aus natürlicher Sprachüberwachung [Clip]
Aufstrebende Eigenschaften in selbst beträchtlichen Sehtransformatoren (ICCV 2021) [DINO]
Maskierte Autoencoder sind skalierbare Sehlerner (CVPR 2022) [MAE]
Skalierungsvision mit spärlicher Mischung aus Experten (Neurips 2021) [MOE]
Tiefenmischung: Dynamisch Berechnung in transformatorbasierten Sprachmodellen [MOD] dynamisch zuweisen

Verschiedenes

Einsum ist einfach und nützlich [ein großartiges Tutorial für die Verwendung von Einsum/Einops]
Open-Endness ist für die künstliche übermenschliche Intelligenz (ICML 2024) von wesentlicher Bedeutung [Gedanken über die Erreichung der übermenschlichen AI]
AGI -Niveaus zur Operationalisierung des Fortschritts auf dem Weg zur AGI

Großspracher Modelle (LLMs)

LLMs sind Transformatoren. Sie können nur in Encoder-, Encoder-Decoder- und Decoder-Architekturen eingeteilt werden, wie im LLM Evolutionary Tree unten [Bildquelle] gezeigt. Überprüfen Sie die Meilensteinpapiere von LLMs.

LLM Evolutionsbaum

Nur-Encoder-Modell kann verwendet werden, um Satzmerkmale zu extrahieren, aber es fehlt eine generative Leistung. Für die Textgenerierung werden Encoder-Decoder- und Decoder-Modelle verwendet. Insbesondere bevorzugen die meisten vorhandenen LLMs aufgrund einer stärkeren Repesentationskraft nur Decoder-Strukturen. Intuitiv können Encoder-Decoder-Modelle als spärliche Version von Decoder-Modellen angesehen werden, und die Informationen zerfallen mehr von Encoder zu Decoder. Weitere Informationen finden Sie in diesem Artikel.

Vorab- und Finetuning

LLMs werden typischerweise von Modellverlagern aus Billionen Texttoken vorgelegt, um die natürliche Sprachstruktur zu verinnerlichen. Die heutigen Modellentwickler führen auch das Lernen für Feinabstimmungen und Verstärkung durch menschliches Feedback (RLHF) durch, um das Modell zu lehren, menschliche Anweisungen zu befolgen und Antworten zu generieren, die mit menschlichen Vorlieben ausgerichtet sind. Die Benutzer können dann das veröffentlichte Modell herunterladen und es auf kleinen persönlichen Datensätzen (z. B. Filmdialog) beenden. Aufgrund der enormen Datenmenge erfordert die Voranwälte massive Rechenressourcen (z. B. mehr als Tausende von GPUs), was von Einzelpersonen unerschwinglich ist. Auf der anderen Seite ist die Feinabstimmung weniger ressourcenhungry und kann mit ein paar GPUs durchgeführt werden.

Die folgenden Materialien können Ihnen helfen, den Vor- und Feinabstimmungsvorgang zu verstehen:

Bert: Vorausbildung von tiefen bidirektionalen Transformatoren für das Sprachverständnis [Vorab- und Finetuning von LLMs nur für Encoder]
Skalierungsunterrichts-Finetuned-Sprachmodelle [Vorab- und Unterrichtsfonetuning]
Illustrieren des Verstärkungslernens durch menschliches Feedback (RLHF)
Sprachmodelle sind nur wenige Schusslernende [Nur Decoder-LLMs] [中文导读 von 李沐]

Weitere Tutorials finden Sie hier.

Aufforderung

Das Aufsuchen von Techniken für LLMs beinhaltet das Erstellen von Eingabetxt auf eine Weise, die das Modell leitet, um die gewünschten Antworten oder Ausgaben zu generieren. Hier sind die nützlichen Ressourcen, mit denen Sie bessere Eingabeaufforderungen schreiben können:

[Dair.AI] Schnelltechnischer Leitfaden
Fantastische ChatGPT -Eingabeaufforderungen - Eine Sammlung von schnellen Beispielen, die mit dem Chatgpt -Modell verwendet werden sollen
Fantastische Absichtsanforderung - Wie man LLMs bittet, zuverlässige Argumentation zu erstellen und verantwortungsbewusste Entscheidungen zu treffen
AUTOPROMPT - Eine automatisierte Methode, die auf der durchladientengesteuerten Suche basiert, um Eingabeaufforderungen für eine Vielzahl von NLP -Aufgaben zu erstellen.

Auswertung

Bewertungswerkzeuge für große Sprachmodelle helfen dabei, ihre Leistung, Funktionen und Einschränkungen für verschiedene Aufgaben und Datensätze zu bewerten. Hier sind einige gemeinsame Bewertungsstrategien:

Automatische Bewertungsmetriken : Diese Metriken bewerten die Modellleistung automatisch ohne menschliche Intervention. Gemeinsame Metriken umfassen:
- BLEU: misst die Ähnlichkeit zwischen generiertem Text und Referenztext basierend auf N-Gram-Überlappung.
- Rouge: Bewertet die Textübersicht, indem Sie überlappende N-Gramm zwischen generierten und Referenzzusammenfassungen verglichen.
- Verwirrung: Misst, wie gut ein Sprachmodell eine Textprobe vorhersagt. Eine geringere Verwirrung zeigt eine bessere Leistung an. Es entspricht der Exponentiation der Kreuzentropie zwischen den Daten- und Modellvorhersagen.
- F1 -Punktzahl: misst das Gleichgewicht zwischen Präzision und Rückruf in Aufgaben wie Textklassifizierung oder benannter Entitätserkennung.
Menschliche Bewertung : Das menschliche Urteilsvermögen ist für die umfassende Qualität des generierten Textes unerlässlich. Gemeinsame menschliche Bewertungsmethoden umfassen:
- Menschliche Bewertungen : Humaner Annotatoren bewerten Text, die auf Kriterien wie Fließende, Kohärenz, Relevanz und Grammatikalität basieren.
- Crowdsourcing-Plattformen : Plattformen wie Amazon Mechanical Turk oder Abbildung acht erleichtern die große menschliche Bewertung durch Crowdsourcing-Anmerkungen.
- Expertenbewertung : Domänenexperten bewerten die Modellausgaben, um ihre Eignung für bestimmte Anwendungen oder Aufgaben zu messen.
Benchmark -Datensätze : Standardisierte Datensätze ermöglichen einen fairen Vergleich von Modellen über verschiedene Aufgaben und Domänen hinweg. Beispiele sind:
- Triviaqa: Ein großes, weit entferntes Herausforderungsdatensatz für das Leseverständnis
- Hellaswag: Kann eine Maschine Ihren Satz wirklich beenden?
- GSM8K: Trainingsprüfer zur Lösung mathematischer Wortprobleme
- Eine vollständige Liste finden Sie hier
Modellanalysetools: Zu den Tools zur Analyse des Modellverhaltens und der Leistung gehören:
- Automatisierte Interpretierbarkeit - Code zum automatischen Generieren, Simulieren und Bewerten von Erklärungen für das Neuronverhalten
- LLM -Visualisierung - Visualisierung von LLMs auf niedrigem Niveau.
- Aufmerksamkeitsanalyse - Analyse der Aufmerksamkeitskarten aus Bert -Transformator.
- Neuron Viewer - Werkzeug zum Betrachten von Aktivierungen und Erklärungen von Neuronen.

Eine vollständige Liste finden Sie hier

Zu den Standardbewertungsrahmen für vorhandene LLMs gehören:

LM-Evaluation-HARTNESS-Ein Rahmen für die Bewertung von Sprachmodellen für wenige Schüsse.
LightVal - Eine leichte LLM -Bewertungssuite, die das Umarmungsgesicht intern verwendet hat.
Olmo -Eval - Ein Repository zur Bewertung offener Sprachmodelle.
BESTUCT-EVAL-Dieses Repository enthält Code, um die mit Alpaka und FLAN-T5 bei gehaltenen Aufgaben abgestimmten Anweisungsmodellen quantitativ zu bewerten.

Umgang mit langem Kontext

Der Umgang mit langen Kontexten stellt aufgrund von Einschränkungen in Bezug auf Gedächtnis und Verarbeitungskapazität eine Herausforderung für große Sprachmodelle dar. Bestehende Techniken umfassen:

Effiziente Transformatoren
- Longformer: Der Langdokumentwandler
- Reformer: Der effiziente Transformator (ICLR 2020)
Zustandsraummodelle
- Transformatoren sind RNNs: schnelle autoregressive Transformatoren mit linearer Aufmerksamkeit (ICML 2020)
- Aufmerksamkeit mit Darstellern überdenken
Länge Extrapolation
- Mamba: Modellierung der linearen Zeitsequenz mit selektiven Zustandsräumen
- ROFORMER: Verbesserter Transformator mit der Einbettung von Rotary Position
- Garn: Effiziente Kontextfenstererweiterung großer Sprachmodelle
Langzeitspeicher
- MemoryBank: Verbesserung großer Sprachmodelle mit Langzeitgedächtnis
- Entfesselung der Eingangskapazität von Infinitenlängen für großräumige Sprachmodelle mit selbstkontrolliertem Speichersystem

Eine vollständige Liste finden Sie hier

Effiziente Finetuning

PEFT-Methoden (Parametereffiziente Fine-Tuning) ermöglichen eine effiziente Anpassung großer vorbereiteter Modelle an verschiedene nachgeschaltete Anwendungen, indem nur eine kleine Anzahl von (zusätzlichen) Modellparametern anstelle aller Parameter des Modells fein:

Schnellstimmung: Die Skalierungsleistung für parametereffiziente Eingabeaufforderung zum Einschalten
Präfix-Tuning: Präfix-Tuning: Optimieren Sie kontinuierliche Eingabeaufforderungen für die Generation
LORA: LORA: Niedrige Anpassung von Großsprachmodellen
Auf eine einheitliche Ansicht des parametereffizienten Transferlernens
Lora lernt weniger und vergisst weniger

Weitere Arbeiten finden Sie in der Sammlung von Peft -Papierpapierpapier und werden dringend empfohlen, mit Huggingface Peft -API zu üben.

Modellverführung

Das Modellverführen bezieht sich auf das Zusammenführen von zwei oder mehr LLMs, die auf verschiedenen Aufgaben in ein einzelnes LLM trainiert wurden. Diese Technik zielt darauf ab, die Stärken und das Wissen verschiedener Modelle zu nutzen, um ein robusteres und fähigeres Modell zu schaffen. Beispielsweise kann ein LLM für die Codegenerierung und ein weiteres LLM für die Lösung von Mathematik -Prolemen zusammengeführt werden, sodass das fusionierte Modell sowohl die Codegenerierung als auch die Mathematik -Problemlösung durchführen kann.

Die Modellverführung ist faszinierend, da sie mit sehr einfachen und billigen Algorithmen (z. B. lineare Kombination von Modellgewichten) effektiv erreicht werden kann. Hier sind einige repräsentative Papiere und Lesematerialien:

Modellsuppen: Die Mittelung von Gewichten mehrerer fein abgestimmter Modelle verbessert die Genauigkeit, ohne die Inferenzzeit zu erhöhen
Bearbeitungsmodelle mit Aufgabenarithmetik
Mergekit großer Sprachmodelle zusammenführen

Weitere Arbeiten über das Modellverführen finden Sie hier

Effiziente Generation

Die Beschleunigung der Dekodierung von LLMs ist entscheidend für die Verbesserung der Inferenzgeschwindigkeit und -effizienz, insbesondere in Echtzeit- oder Latenz-sensitiven Anwendungen. Hier sind einige repräsentative Arbeiten, um den Dekodierungsprozess von LLMs zu beschleunigen:

Deja Vu: Kontextsparsity für effiziente LLMs zu Inferenzzeiten (ICML 2023 oral)
Llmlingua: Komprimieren von Eingabeaufforderungen für beschleunigte Inferenz großer Sprachmodelle (EMNLP 2023)
Effiziente Streaming -Sprachmodelle mit Aufmerksamkeits sinken
Specinfer: Beschleunigen generative LLM, die mit spekulativen Inferenz- und Tokenbaumverifizierung dient
Medusa: Einfache LLM -Inferenzbeschleunigungs -Framework mit mehreren Dekodierungsköpfen
Bessere und schnellere große Sprachmodelle über mehrfache Vorhersage
Layer Skip: Aktivieren Sie die frühe Ausstiegsauslegung und selbstspezifische Dekodierung

Weitere Arbeiten zum Beschleunigen von LLM -Dekodierung finden Sie über Link 1 und Link 2.

Wissensbearbeitung

Die Wissensbearbeitung zielt darauf ab, das LLM -Verhalten effizient zu verändern, z. B. die Verringerung der Verzerrung und die Überarbeitung erlernter Korrelationen. Es umfasst viele Themen wie Lokalisierung des Wissens und das Verunehmen. Repräsentative Arbeiten umfassen:

Speicherbasierte Modellbearbeitung im Maßstab (ICML 2022)
Transformator-Patcher: Ein Fehler im Wert von einem Neuron (ICLR 2023)
Massive Bearbeitung für großes Sprachmodell über Meta -Lernen (ICLR 2024)
Ein einheitliches Framework für die Modellbearbeitung
Transformator Feed-Forward-Schichten sind Schlüsselwertgefeiler (EMNLP 2021)
Massenbearbeitungsgedächtnis in einem Transformator

Hier finden Sie mehr Papiere.

LLM-Betroffene

Durch den Erhalt massiver Schulungen können LLMS -Digest World Wissen genau befolgen. Mit diesen erstaunlichen Funktionen können LLMs als Agenten spielen, die autonom (und gemeinsam) komplexe Aufgaben lösen oder menschliche Interaktionen simulieren können. Hier sind einige repräsentative Arbeiten von LLM -Agenten:

Generative Agents: Interaktive Simulacra des menschlichen Verhaltens (UIST 2023) [LLMs simuliert die menschliche Gesellschaft in Videospielen]
Sotopie: Interaktive Bewertung für soziale Intelligenz in Sprachagenten (ICLR 2024) [LLMs simulieren soziale Interaktionen]
Voyager: Ein offener verkörperter Agent mit großartigen Modellen [LLMs leben in der Minecraft-Welt]
Großsprachenmodelle als Werkzeughersteller (ICLR 2024) [LLMs erstellen ihre eigenen wiederverwendbaren Werkzeuge (z. B. in Python-Funktionen) zur Problemlösung]
METAGPT: Meta-Programmierung für Collaborative Framework mit mehreren Agenten [LLMs als Team für automatisierte Softwareentwicklung]
Webarena: Eine realistische Webumgebung zum Aufbau autonomer Agenten (ICLR 2024) [LLMs verwenden Webanwendungen]
Mobile-Env: Eine Bewertungsplattform und ein Benchmark für LLM-GUI-Interaktion [LLMs verwenden mobile Anwendungen]
Hugginggpt: Lösen von KI-Aufgaben mit Chatgpt und seinen Freunden im Umarmungsgesicht (Neurips 2023) [LLMs suchen Modelle in Huggingface zur Problemlösung]
Agentgymus: Entwicklung von modellbasierten Wirkstoffen in großer Sprache in verschiedenen Umgebungen [verschiedene interaktive Umgebungen und Aufgaben für LLM-basierte Agenten]

Eine vollständige Liste von Arbeiten, Plattformen und Bewertungstools finden Sie hier.

Ergebnisse

Ihr Transformator ist heimlich linear
Nicht alle Sprachmodellmerkmale sind linear
Kan oder MLP: Ein gerechterer Vergleich
Transformatorschichten als Maler
Vision -Sprachmodelle sind blind

Offene Herausforderungen

LLMs stehen vor mehreren offenen Herausforderungen, die Forscher und Entwickler aktiv daran arbeiten. Diese Herausforderungen umfassen:

Halluzination
- Eine umfassende Übersicht über Halluzinationsminderungstechniken in Großsprachenmodellen
Modellkomprimierung
- Eine umfassende Übersicht über Komprimierungsalgorithmen für Sprachmodelle
Auswertung
- Bewertung von großsprachigen Modellen: Eine umfassende Umfrage
Argumentation
- Eine Übersicht über die Argumentation mit Stiftungsmodellen
Erklärung
- Vom Verständnis zur Nutzung: Eine Umfrage zur Erklärung von Großsprachmodellen
Fairness
- Eine Umfrage zur Fairness in großen Sprachmodellen
Tatsache
- Eine Umfrage zur Sachlichkeit in Großsprachenmodellen: Wissen, Abruf und Domänenspezifität
Wissensintegration
- Trends zur Integration von Wissen und Großsprachmodellen: Eine Umfrage und Taxonomie von Methoden, Benchmarks und Anwendungen

Eine vollständige Liste finden Sie hier.

Diffusionsmodelle

Diffusionsmodelle zielen darauf ab, die Wahrscheinlichkeitsverteilung einer bestimmten Datendomäne zu approximieren und eine Möglichkeit zur Erzeugung von Proben aus seiner ungefähren Verteilung zu bieten. Ihre Ziele ähneln anderen populären generativen Modellen wie Vae, Gans und Normalisierungsströmen.

Der Arbeitsablauf von Diffusionsmodellen wird mit zwei Prozessen vorgestellt:

Vorwärtsprozess (Diffusionsprozess): Es wird schrittweise die Rauschen schrittweise auf die ursprünglichen Eingangsdaten angewendet, bis die Daten vollständig zu Rauschen werden.
Reverse Process (Denoising -Prozess): Ein NN -Modell (z. B. CNN oder Tranformator) wird geschult, um das in jedem Schritt während des Vorwärtsprozesses angewendete Rauschen abzuschätzen. Dieses geschulte NN -Modell kann dann verwendet werden, um Daten aus dem Rauscheingang zu generieren. Vorhandene Diffusionsmodelle können auch andere Signale (z. B. Texteingabeaufforderungen von Benutzern) akzeptieren, um die Datenerzeugung zu konditionieren.

Sehen Sie sich diesen großartigen Blog an und weitere Einführungs -Tutorials finden Sie hier. Diffusionsmodelle können verwendet werden, um Bilder, Audios, Videos und mehr zu generieren, und es gibt viele Unterfelder, die sich auf Diffusionsmodelle beziehen, wie unten gezeigt [Bildquelle]:

Diffusionsmodell -Taxonomie

Bildgenerierung

Hier sind einige repräsentative Artikel von Diffusionsmodellen für die Bildgenerierung:

Hochauflösende Bildsynthese mit latenten Diffusionsmodellen (CVPR 2022)
Palette: Image-zu-Image-Diffusionsmodelle (Siggraph 2022)
Bild superauflösung durch iterative Verfeinerung
Inpainting unter Verwendung der Denoising -Diffusion probabilistischer Modelle (CVPR 2022)
Hinzufügen einer bedingten Steuerung zu Text-zu-Image-Diffusionsmodellen (ICCV 2023)

Hier finden Sie mehr Papiere.

Videogenerierung

Hier sind einige repräsentative Artikel von Diffusionsmodellen für die Videogenerierung:

Videodiffusionsmodelle
Flexible Diffusionsmodellierung langer Videos (Neurips 2022)
Skalierung latenter Videodiffusionsmodelle zu großen Datensätzen
I2Vgen-XL: Hochwertige Bild-zu-Video-Synthese über kaskadierte Diffusionsmodelle

Hier finden Sie mehr Papiere.

Audiogeneration

Hier sind einige repräsentative Artikel von Diffusionsmodellen für die Audiogenerierung:

Grad-TTs: Ein diffusions-probabilistisches Modell für Text-to-Speech
Text-to-Audio-Generierung unter Verwendung von LLM und Latent-Diffusionsmodell für Anweisungen
Sprachkonditionierung von Zero-Shot-Konditionierung zur Denoisierung von TTS-Modellen der Diffusion
EDitts: Score-basierte Bearbeitung für kontrollierbare Text-zu-Sprache
Prodiff: Progressives schnelles Diffusionsmodell für hochwertige Text-zu-Sprach

Hier finden Sie mehr Papiere.

Vorab- und Finetuning

Ähnlich wie bei anderen großen generativen Modellen werden auch Diffusionsmodelle in einer großen Menge an Webdaten (z. B. Laion-5b-Datensatz) vorgelegt und massive Rechenressourcen konsumieren. Benutzer können die freigegebenen Gewichte herunterladen, die das Modell auf persönlichen Datensätzen weiter abstellen können.

Hier sind einige repräsentative Artikel über eine effiziente Feinabstimmung von Diffusionsmodellen:

Dreambooth: Feinabstimmungsdiffusionsmodelle für die Subjektbetriebenerzeugung (CVPR 2023)
Ein Bild ist ein Wort wert: Personalisierung der Text-zu-Image-Generierung mithilfe der Textinversion (ICLR 2023)
Benutzerdefinierte Diffusion: Multi-Konzept-Anpassung der Text-zu-Image-Diffusion (CVPR 2023)
Kontrolle der Text-zu-Im-Image-Diffusion durch orthogonale Finetuning (Neurips 2023)

Hier finden Sie mehr Papiere.

Es wird dringend empfohlen, mit Huggingface -Diffusors -API zu üben.

Auswertung

Hier sprechen wir über die Bewertung von Diffusionsmodellen für die Bilderzeugung. Viele vorhandene Kennzahlen zur Bildqualität können angewendet werden.

Clip-Score: Die Clip-Score misst die Kompatibilität von Bildkaptionspaaren. Höhere Clip -Scores bedeuten eine höhere Kompatibilität. Es wurde festgestellt, dass die Clip -Score eine hohe Korrelation mit dem menschlichen Urteilsvermögen aufweist.
Fréchet Inception Distanz (FID): FID zielt darauf ab, zu messen, wie ähnlich zwei Datensätze sind. Es wird berechnet, indem der Fréchet -Abstand zwischen zwei Gaußern berechnet wird, die dazu geeignet sind, Darstellungen des Inception -Netzwerks zu finden
Clip Directional -Ähnlichkeit: Es misst die Konsistenz der Änderung zwischen den beiden Bildern (im Clip -Raum) mit der Änderung zwischen den beiden Bildunterschriften.

Weitere Bildqualitätsmetriken und Berechnungswerkzeuge finden Sie hier.

Effiziente Generation

Diffusionsmodelle erfordern mehrere Vorwärtsschritte, um Daten zu generieren, was teuer ist. Hier sind einige repräsentative Artikel von Diffusionsmodellen für die effiziente Generation:

Ich muss schnell gehen, wenn ich Daten mit bewertungsbasierten Modellen generiere
Schnelle Abtastung von Diffusionsmodellen mit Exponentialintegrator
Lernen schneller Sampler für Diffusionsmodelle durch Differenzierung durch Probenqualität
Beschleunigung der Diffusionsmodelle durch einen frühen Stopp des Diffusionsprozesses

Hier finden Sie mehr Papiere.

Wissensbearbeitung

Hier sind einige repräsentative Arbeiten der Wissensbearbeitung für Diffusionsmodelle:

Löschen von Konzepten aus Diffusionsmodellen (ICCV 2023)
Bearbeitung massiver Konzepte in Text-zu-Image-Diffusionsmodellen
Vergiss-me-nicht: Lernen, in Text-zu-Image-Diffusionsmodellen zu vergessen,

Hier finden Sie mehr Papiere.

Offene Herausforderungen

Hier sind einige Umfragepapiere über die Herausforderungen, denen sich Diffusionsmodelle gegenübersehen.

Eine Übersicht über diffusionsbasierte Bildgenerierungsmodelle
Eine Umfrage zu Videodiffusionsmodellen
Stand der Technik zu Diffusionsmodellen für visuelles Computing
Diffusionsmodelle in NLP: Eine Umfrage

Große multimodale Modelle (LMMs)

Typische LMMs werden konstruiert, indem vorhandene unimodale Modelle angeschlossen und fein abtroffen werden. Einige werden auch von Grund auf neu vorgezogen. Überprüfen Sie, wie sich LMMs im Bild unten entwickeln [Bildquelle].

Diffusionsmodell -Taxonomie

Modellarchitekturen

Es gibt viele verschiedene Möglichkeiten, LMMs zu konstruieren. Repräsentative Architekturen umfassen:

Sprachmodelle sind allgemeine Schnittstellen
Flamingo: Ein visuelles Sprachmodell für wenige Lernen (Neurips 2022)
BLIP: Bootstrapping Sprachbild Vorausbildung für einheitliches Verständnis und Generation von Visionsprachen (ICML 2022)
BLIP-2: Bootstrapping-Sprachbild vor der Ausbildung mit gefrorenen Bildcodierern und großen Sprachmodellen (ICML 2023)
MPLUG-UWL2: revolutionieren multimodales Großsprachmodell mit Modalitätszusammenarbeit
Florence-2: Förderung einer einheitlichen Darstellung für eine Vielzahl von Sichtaufgaben
Dichter Stecker für Mllms

Weitere Arbeiten finden Sie über Link 1 und Link 2.

Auf verkörperte Agenten

Durch die Kombination von LMMs mit Robotern wollen die Forscher AI -Systeme entwickeln, die die Welt auf natürlichere und intuitivere Weise erkennen, den Vernunft für die Welt wahrnehmen und auf die Welt reagieren können, mit potenziellen Anwendungen, die Robotik, virtuelle Assistenten, autonome Fahrzeuge und darüber hinaus überspannen. Hier sind einige repräsentative Arbeiten, um verkörperte KI mit LMMs zu verwirklichen:

RT-1: Robotics-Transformator für die reale Steuerung im Maßstab
RT-2: Vision-Sprach-Action-Modelle übertragen Webwissen auf Roboterkontrolle
RT-H: Aktionshierarchien mit Sprache
Palm-E: Ein verkörpertes multimodales Sprachmodell
TRANSIC: SIM-to-Real-Richtlinienübertragung durch Lernen durch Online-Korrektur

Weitere Arbeiten finden Sie über Link 1 und Link 2.

Hier sind einige beliebte Simulatoren und Datensätze zur Bewertung der LMMS -Leistung für verkörperte KI:

Habitat 3.0: Eine verkörperte KI-Simulationsplattform zur Untersuchung der kollaborativen Aufgaben des Human-Robot-Interaktion in häuslichen Umgebungen
Procthor-10K: 10K Interaktive Haushaltsumgebungen für verkörperte KI
ARNOLD: Ein Maßstab für das Lernen von Sprach aufgaben mit kontinuierlichen Zuständen in realistischen 3D-Szenen
Legent: Offene Plattform für verkörperte Agenten
Robocasa: Große Simulation alltäglicher Aufgaben für Generalist Roboter

Hier finden Sie mehr Ressourcen.

Offene Herausforderungen

Hier sind einige Umfragepapiere über offene Herausforderungen für LMM-fähige verkörperte KI:

Der Anstieg und das Potenzial von modellbasierten Wirkstoffen in großer Sprache: eine Umfrage
Vision-Sprachnavigation mit verkörperter Intelligenz: Eine Umfrage
Eine Übersicht über verkörperte KI: Von Simulatoren bis hin zu Forschungsaufgaben
Eine Umfrage zu autonomen LLM-basierten Agenten
Mindstorms in natürlichen Sprachgesellschaften des Geistes

Jenseits von Transformatoren

Forscher versuchen, andere Modelle als Transformatoren zu erkunden. Die Bemühungen umfassen implizit die Modellparameter und die Definition neuer Modellarchitekturen.

Implizit strukturierte Parameter

Monarch -Mixer: Bert ohne Aufmerksamkeit oder MLPs überprüft
Mamba: Modellierung der linearen Zeitsequenz mit selektiven Zustandsräumen

Neue Modellarchitekturen

Hyänenhierarchie: Auf dem Weg zu größeren Faltungssprachmodellen
RWKV: RNNs für die Transformator -Ära neu erfinden
Retentive Network: Ein Nachfolger des Transformators für große Sprachmodelle
Mamba: Modellierung der linearen Zeitsequenz mit selektiven Zustandsräumen
Kan: Kolmogorov -Arnold -Netzwerke
Transformatoren sind SSMs: Verallgemeinerte Modelle und effiziente Algorithmen durch strukturierte Zustandsraum Dualität

Hier ist ein großartiges Tutorial für Staatsraummodelle.

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Anderer Quellcode
Aktualisierungszeit 2025-03-08
Größe 166.87KB
Kommt von Github

Ähnliche Anwendungen

awesome generative ai guide

2024-11-05
Davor

2024-07-08
AI Photo Enhancer

2023-07-14
KI-Ersteller

2023-04-23
Jasper KI

2023-04-12
Außerirdische KI

2022-07-29