Tolle AI -Papiere ️
Beschreibung
Dieses Repository ist eine aktuelle Liste wichtiger KI-Artikel, die nach Publikationsdatum organisiert sind. Es deckt fünf Felder ab: Computer Vision, Verarbeitung natürlicher Sprache, Audioverarbeitung, multimodales Lernen und Verstärkungslernen. Fühlen Sie sich frei, diesem Repository einen Stern zu geben, wenn Sie die Arbeit genießen.
Betreuer: Aimerou Ndiaye
Inhaltsverzeichnis
- 2023 Papiere
- Computer Vision
- Verarbeitung natürlicher Sprache
- Audioverarbeitung
- Multimodales Lernen
- Verstärkungslernen
- Andere Papiere
- 2022 Papiere
- Computer Vision
- Verarbeitung natürlicher Sprache
- Audioverarbeitung
- Multimodales Lernen
- Verstärkungslernen
- Andere Papiere
- Historische Papiere
Taxonomie
Um die relevantesten Artikel auszuwählen, haben wir subjektive Grenzen in Bezug auf die Anzahl der Zitate gewählt. Jedes Symbol hier bezeichnet einen Papierart, der eines dieser Kriterien erfüllt.
? Historisches Papier: Mehr als 10 km Zitate und eine entscheidende Auswirkung auf die Entwicklung von AI.
Wichtiges Papier: Mehr als 50 Zitate und hochmoderne Ergebnisse.
⏫ Trend: 1 bis 50 Zitate, jüngstes und innovatives Papier mit wachsender Akzeptanz.
? Wichtiger Artikel: Entscheidende Arbeit, die nicht von einem Forschungsarbeit begleitet wurde.
2023 Papiere
Computer Vision
- 01.01.2023: Muse: Text-to-Image-Generation über maskierte generative Transformers (Muse)
- 02/2023: Struktur und inhaltsgeführte Videosynthese mit Diffusionsmodellen (Gen-1)
- 02.02.2023: Skalierung von Sichttransformatoren zu 22 Milliarden Parametern (Vit 22b)
- 02/2023: Hinzufügen einer bedingten Steuerung zu Text-zu-Image-Diffusionsmodellen (ControlNet)
- 03.03.2023: Visual Chatgpt: Reden, Zeichnen und Bearbeiten mit visuellen Fundamentmodellen (Visual Chatgpt)
- 03.03.2023: Skalierung von Gans für Text-zu-Image-Synthese (Gigagan)
- 20.04.2023: Segment alles (SAM)
- 04.04.2023: Dinov2: Robuste visuelle Funktionen ohne Aufsicht lernen (Dinov2)
- 04.04.2023: Visuelle Anweisungsstimmung
- 04.04.2023: Richten Sie Ihre Latenten aus: Hochauflösende Video-Synthese mit latenten Diffusionsmodellen (videoldm)
- 04.04.2023: Synthetische Daten aus Diffusionsmodellen verbessert die ImageNet -Klassifizierung
- 04/2023: Segment alles in medizinischen Bildern (Medsam)
- 20.05.2023: Ziehen Sie Ihren GaN: Interaktive punktuelle Manipulation auf den generativen Bildverteiler (Draggan)
- 20.06.2023: Neuralangelo: Rekonstruktion der neuronalen Oberflächen in hohem Fidelity (Neuralangelo)
- 07/2023: SDXL: Verbesserung der latenten Diffusionsmodelle für die hochauflösende Bildsynthese (SDXL)
- 08/2023: 3D Gaußsche Splating für das Rendering von Echtzeit-Strahlen
- 08/2023: Qwen-VL: Ein vielseitiges Visionsprachmodell für Verständnis, Lokalisierung ... (Qwen-VL)
- ⏫ 08/2023: MVDream: Mehransichtsdiffusion für die 3D-Erzeugung (MVDream)
- ⏫ 11/2023: Florence-2: Förderung einer einheitlichen Darstellung für eine Vielzahl von Visionsaufgaben (Florence-2)
- ⏫ 12.12.2023: Videopoet: Ein großes Sprachmodell für die Videogenerierung von Zero-Shot (Videopoet)
NLP
- 01.01.2023: DetectGPT: Null-Shot-maschinellgenerierte Texterkennung unter Verwendung der Wahrscheinlichkeitskrümmung (DEPECTGPT)
- 02/2023: Toolformer: Sprachmodelle können sich selbst beibringen, Tools zu verwenden (Toolformer)
- 02/2023: LLAMA: Offene und effiziente Stiftungssprachmodelle (Lama)
- ? 03/2023: GPT-4
- 03.03.2023: Funken künstlicher allgemeiner Intelligenz: Frühe Experimente mit GPT-4 (GPT-4 Eval)
- 03/2023: Hugginggpt: Lösen von KI -Aufgaben mit Chatgpt und seinen Freunden in Huggingface (Hugginggpt)
- 03.03.2023: BloomBerggpt: Ein großes Sprachmodell für die Finanzierung (Bloombergptt)
- 20.04.2023: Anweisungsstimmung mit GPT-4
- 04/2023: Generative Agents: Interaktive Simulacra des Menschen (Genagenten)
- 05/2023: Palm 2 Technischer Bericht (Palm-2)
- 20.05.2023: Baumbaum: Absichtliche Problemlösung mit großen Sprachmodellen (TOT)
- 05/2023: Lima: Weniger ist mehr für die Ausrichtung (Lima)
- 05/2023: Qlora: Effiziente Finetuning von quantisierten LLMs (Qlora)
- 05.05.2023: Voyager: Ein offenes verkörpertes Wirkstoff mit großen Sprachmodellen (Voyager)
- 07.07.2023: Toolllm: Erleichterung großer Sprachmodelle, um 16000+ reale APIs (Toolllm) zu beherrschen.
- 20.08.2023: Metagpt: Meta-Programmierung für das Multi-Agent-Kollaborationsrahmen (Metagpt)
- 08/2023: Code LLAMA: Open Foundation -Modelle für Code (Code Lama)
- ⏫ 09.09.2023: RLAIF: Skalierung der Verstärkung aus menschlichem Feedback mit KI -Feedback (RLAIF)
- 09.09.2023: Großsprachenmodelle als Optimierer (OPRO)
- ⏫ 10/2023: Eureka: Belohnungsdesign auf menschlicher Ebene über Codierung großer Sprachmodelle (Eureka)
- ⏫ 12.12.2023: Mathematische Entdeckungen aus der Programmsuche mit großen Sprachmodellen (FunSearch)
Audioverarbeitung
- 01.01.2023: Neuronale Codec-Sprachmodelle sind Null-Shot-Text zu Sprachsynthesizern (Vall-E)
- 01.01.2023: MusicLM: Musik aus Text generieren (MusicLM)
- 01.01.2023: Audioldm: Text-to-Audio-Generation mit latenten Diffusionsmodellen (Audioldm)
- 03/2023: Google USM: Skalierung automatischer Spracherkennung über 100 Sprachen (USM)
- 20.05.2023: Skalierung der Sprachtechnologie auf 1.000 Sprachen (MMS)
- ⏫ 06/2023: Einfache und kontrollierbare Musikgenerierung (MusicGen)
- ⏫ 06/2023: Audiopalm: Ein großes Sprachmodell, das sprechen und zuhören kann (Audiopalm)
- ⏫ 06/2023: VoiceBox: Text-gesteuerte mehrsprachige universelle Sprachgenerierung im Maßstab (VoiceBox)
Multimodales Lernen
- 02/2023: Sprache ist nicht alles, was Sie brauchen: Wahrnehmung mit Sprachmodellen (Kosmos-1) ausrichten
- 03/2023: Palm-E: Ein verkörpertes multimodales Sprachmodell (Palm-E)
- 20.04.2023: Audiogpt: Verständnis und Generierung von Sprache, Musik, Klang und Talking (Audiogpt)
- 05/2023: ImageBind: Ein Einbettungsraum, um sie alle zu binden (ImageBind)
- ⏫ 07.07.2023: Skalierung autoregressive multi-modale Modelle: Vorab- und Befehlsabstimmung (CM3LEON)
- ⏫ 07/2023: Meta-Transformator: Ein einheitliches Rahmen für multimodales Lernen (Meta-Transformator)
- ⏫ 08/2023: SeamlessM4T: Massive mehrsprachige und multimodale maschinelle Übersetzung (SeamlessM4T)
Verstärkungslernen
- 01.01.2023: Mastering verschiedener Domänen durch Weltmodelle (Dreamerv3)
- ⏫ 02.02.2023: Erde große Sprachmodelle in interaktiven Umgebungen mit Online -RL (Glam)
- ⏫ 02/2023: Effizientes Online -Verstärkungslernen mit Offline -Daten (RLPD)
- ⏫ 03.03.2023: Belohnungsdesign mit Sprachmodellen
- 05/2023: Direkte Präferenzoptimierung: Ihr Sprachmodell ist heimlich ein Belohnungsmodell (DPO)
- ⏫ 06/2023: schnellere Sortieralgorithmen, die mit Deep verstärkungsfähig entdeckt wurden (Alphadev)
- ⏫ 08/2023: RetroFormer: Retrospektive große Sprachmittel mit politischer Gradientenoptimierung (RetroFormer)
Andere Papiere
- 02/2023: Symbolische Entdeckung von Optimierungsalgorithmen (Löwe)
- 07.07.2023: RT-2: Vision-Sprach-Action-Modelle übertragen Webwissen auf Roboterkontrolle (RT-2)
- ⏫ 11/2023: Skalierung tiefes Lernen für Materialentdeckungen (GNOME)
- ⏫ 12/2023: Entdeckung einer strukturellen Klasse von Antibiotika mit erklärbarem tiefem Lernen
2022 Papiere
Computer Vision
- 01.01.2022: Ein Konvett für die 2020er (Convnext)
- 01.01.2022: Patches sind alles, was Sie brauchen (Convmixer)
- 02.02.2022: Block-Nerf: Skalierbares Synthese der Neuralansicht mit großer Szene (Block-Nerf)
- 03.03.2022: Dino: DETR mit verbesserten Denoising-Ankerboxen für die Erkennung von End-to-End-Objekten (Dino)
- 20.03.2022: Skalieren Sie Ihre Körner auf 31 × 31: Überprüfung des großen Kernel -Designs in CNNs (großer Kernel CNN)
- 03/2022: Tensorf: Tensorial Radiance Fields (Tensorf)
- 20.04.2022: MaxVit: Multi-Achse Vision Transformator (maxvit)
- 04/2022: Hierarchische Text-konditionelle Bildgenerierung mit Clip Latents (Dall-e 2)
- 05/2022: Photorealistische Text-zu-Image-Diffusionsmodelle mit tiefem Sprachverständnis (Imageen)
- 05/2022: Git: Ein generatives Bild-zu-Text-Transformator für Vision und Sprache (Git)
- 06.06.2022: CMT: Faltungsverkäufer Neuronales Netzwerk Meet Vision Transformers (CMT)
- 07.07.2022: Swin Unetr: Swin -Transformatoren zur semantischen Segmentierung von Hirntumoren ... (Swin Untr)
- 07.07.2022: Klassifikatorfreie Diffusionsanleitung
- 20.08.2022: Fine-Tuning-Text-zu-Image-Diffusionsmodelle für die Subjektbetriebener Generation (Dreambooth)
- 09.09.2022: Dreamfusion: Text-zu-3D mit 2D-Diffusion (Dreamfusion)
- 09.09.2022: Make-a-video: Text-to-Video-Generierung ohne Text-Video-Video-Daten (Make-a-video)
- 10/2022: Bei der Destillation geführter Diffusionsmodelle
- 10/2022: Laion-5b: Ein offener groß angelegter Datensatz für die Schulung der nächsten Generation im Bild-Text-Modelle (Laion-5b)
- 10/2022: Bildisch: textbasiertes reales Bildbearbeitung mit Diffusionsmodellen (Vorstellungsbedingungen)
- 11/2022: visuelle Eingabeaufforderung zum Tuning
- 11/2022: Magic3d: Hochauflösende Text-zu-3d-Inhaltserstellung (Magic3d)
- 11/2022: DiffusionDet: Diffusionsmodell für die Objekterkennung (DiffusionDet)
- 11/2022: InstructPix2Pix: Lernen, Bildbearbeitungsanweisungen zu befolgen (InstructPix2Pix)
- 12/2022: Multi-Concept-Anpassung der Text-zu-Image-Diffusion (benutzerdefinierte Diffusion)
- 12/2022: Skalierbare Diffusionsmodelle mit Transformatoren (DIT)
NLP
- 01.01.2022: Lambda: Sprachmodelle für Dialoganwendungen (Lambda)
- 01.01.2022: Kette der Gedanken zum Nachdenken liefert Argumentation in Großsprachenmodellen (COT) aus
- 02.02.2022: Codegenerierung auf Wettbewerbsebene mit Alphacode (Alphacode)
- 02.02.2022: Finetuned-Sprachmodelle sind Null-Shot-Lernende (Flan)
- 03.03.2022: Trainingssprachmodelle, um menschliche Anweisungen mit menschlichem Feedback zu befolgen (InstructGPT)
- 03.03.2022: Multitaskante zum Training ermöglicht die Verallgemeinerung von Aufgaben in der Null-Shot (T0)
- 20.03.2022: Trainingsberechnung-optimale Großsprachmodelle (Chinchilla)
- 20.04.2022: Mach ich, was ich kann, nicht wie ich sage: Erdungssprache in Roboter -Gewähren (Saycan)
- 04/2022: GPT-NEOX-20B: Ein autoregressives Open-Source-Sprachmodell (GPT-NEOX)
- 04/2022: Palm: Skalierungssprachmodellierung mit Pfaden (Palm)
- 20.06.2022: Jenseits des Nachahmungsspiels: Quantifizierung und Extrapolation der Fähigkeiten von Lang ... (Big-Bench)
- 06/2022: Lösen quantitativer Argumentationsprobleme mit Sprachmodellen (Minerva)
- 10/2022: React: Synergisierung von Denken und Handeln in Sprachmodellen (React)
- 11/2022: Bloom: Ein 176B-Parameter Open-Access mehrsprachiger Sprachmodell (Bloom)
- ? 11/2022: Sprachmodelle für den Dialog optimieren (CHATGPT)
- 12/2022: Großsprachige Modelle codieren klinisches Wissen (med-palm)
Audioverarbeitung
- 02/2022: MSlam: Massiv mehrsprachige gemeinsame Vorausbildung für Sprache und Text (MSlam)
- 02/2022: Add 2022: Die erste Herausforderung der Audio Deep -Synthese -Erkennung (hinzufügen)
- 20.03.2022: Effizientes Training von Audio -Transformatoren mit Patchout (PASST)
- 04.04.2022: Maestro: Übereinstimmende Sprachtextdarstellungen durch Modalitätsübereinstimmung (Maestro)
- 05/2022: Sprache5: Unified-Modal Encoder-Decoder Pre-Training für gesprochene Sprache ... (Sprache)
- 06/2022: WAVLM: groß angelegte Selbstversorgung für die vollständige Stapel-Sprachverarbeitung (Wavlm)
- 07.07.2022: Bigssl: Erkundung der Grenze des groß angelegten halbübergreifenden Lernens für ASR (Bigssl)
- 08/2022: Mulan: Eine gemeinsame Einbettung von Musik -Audio und natürlicher Sprache (Mulan)
- 09.09.2022: Audiolm: Ein Sprachmodellierungsansatz für die Audiogenerierung (Audiolm)
- 09.09.2022: Audiogen: textuell geführte Audiogenerierung (Audiogen)
- 10/2022: High Fidelity Neural Audio Compression (CCODEC)
- 12/2022: robuste Spracherkennung durch große schwache Überwachung (Whisper)
Multimodales Lernen
- 01.01.2022: Blip: Boostrapping Language-Image Pre-Training für einheitliche Visionsprachen ... (Blip)
- 02/2022: Data2VEC: Ein allgemeiner Rahmen für das selbstbewertete Lernen in Sprache, Vision und ... (Data2VEC)
- 03.03.2022: VL-Adapter: Parameter-effizientes Transferlernen für Vision- und Sprachaufgaben (VL-Adapter)
- 20.04.2022: Winöal: Sicht- und Sprachmodelle für Visio-Linguistik ... (Winöal)
- 04/2022: Flamingo: Ein visuelles Sprachmodell für wenige Lernen (Flamingo)
- 20.05.2022: ein Generalist Agent (GATO)
- 05/2022: Coca: Kontrastive Bildunterschriften sind Image-Text-Fundamentmodelle (CoCA)
- 20.05.2022: VLMO: Unified Vision-Sprache Pre-Training mit Mischungsmodalitäts-Experten (VLMO)
- 20.08.2022: Bild als Fremdsprache: BEIT-Vorbereitung für alle Seh- und Visionsprachenaufgaben (BEIT)
- 09.09.2022: Pali: Ein gemeinsamskaliertes mehrsprachiges Sprachbildmodell (Pali)
Verstärkungslernen
- 01.01.2022: Lernen robuster Wahrnehmungsbewegung für Quadrupedal -Roboter in freier Wildbahn
- 02/2022: BC-Z: Null-Shot-Aufgabeverallgemeinerung mit Roboter-Imitation-Lernen
- 02.02.2022: Ausdauermeister Gran Turismo -Fahrer mit tiefem Verstärkungslernen (Sophy)
- 02/2022: Magnetische Kontrolle von Tokamak -Plasmen durch tiefes Verstärkungslernen
- 08.08.2022: Lernen in wenigen Minuten mit massiv parallelem Tiefenverstärkungslernen (Anymal)
- 10/2022: Federmatrix -Multiplikationsalgorithmen mit Verstärkungslernen (Alphatensor) entdecken (Alphatensor)
Andere Papiere
- 02.02.2022: FourcastNet: Ein globales datengesteuertes hochauflösendes Wettermodell ... (FourcastNet)
- 05/2022: Colabfold: Machen Sie das Proteinfalten für alle zugänglich (Colabfold)
- 20.06.2022: Messung und Verbesserung der Verwendung von Graphinformationen in GNN
- 10/2022: TimesNet: Temporal 2D-Variationsmodellierung für die allgemeine Zeitreihenanalyse (TimesNet)
- 12/2022: RT-1: Robotik-Transformator für die reale Steuerung im Maßstab (RT-1)
Historische Papiere
- ? 1958: Perceptron: Ein probabilistisches Modell zur Speicherung und Organisation des Gehirns (Perceptron)
- ? 1986: Lerndarstellungen durch Rückgängerfehler (Backpropagation)
- ? 1986: Einführung von Entscheidungsbäumen (Wagen)
- ? 1989: Ein Tutorial über versteckte Markov -Modelle und ausgewählte Anwendungen in der Spracherkennung (HMM)
- ? 1989: Mehrschichtige Feedforward -Netzwerke sind universelle Approximators
- ? 1992: Ein Trainingsalgorithmus für optimale Randklassifizierer (SVM)
- ? 1996: Pagging -Prädiktoren
- ? 1998: Gradientenbasiertes Lernen, das zur Erkennung von Dokumenten angewendet wird (CNN/GTN)
- ? 2001: Zufällige Wälder
- ? 2001: Ein schneller und elitärer multiobjektiver genetischer Algorithmus (NSGA-II)
- ? 2003: Latent Dirichlet Allocation (LDA)
- ? 2006: Reduzierung der Dimensionalität von Daten mit neuronalen Netzwerken (Autocoder)
- ? 2008: Visualisierung von Daten mit T-SNE (T-SNE)
- ? 2009: ImageNet: Eine großflächige hierarchische Bilddatenbank (ImageNet)
- ? 2012: ImageNet -Klassifizierung mit tiefen Faltungsnetzwerken (Alexnet)
- ? 2013: Effiziente Schätzung von Wortdarstellungen im Vektorraum (WORD2VEC)
- ? 2013: automatisch kodierende Variation Bayes (VAE)
- ? 2014: Generative kontroverse Netzwerke (GaN)
- ? 2014.
- ? 2014: Sequenz zum Sequenzlernen mit neuronalen Netzwerken
- ? 2014: Übersetzung der neuronalen maschinellen Übersetzung durch gemeinsame Ausrichtung und Übersetzung (RNNSearch-50)
- ? 2014: ADAM: Eine Methode zur stochastischen Optimierung (Adam)
- ? 2015: Batch -Normalisierung: Beschleunigen des tiefen Netzwerktrainings durch Reduzierung des internen CoV ... (Batchnorm)
- ? 2015: Tiefer mit Konvolutionen (Inception)
- ? 2015: Kontrolle von Menschen auf Menschenebene durch Deep verstärkte Lernen (Deep Q Network)
- ? 2015: schnellerer R-CNN: Auf dem Weg zu Echtzeit-Objekterkennung mit Region Vorschlägen (schneller R-CNN)
- ? 2015: U-NET: Faltungsnetzwerke für die biomedizinische Bildsegmentierung (U-NET)
- ? 2015: Tiefes Restlernen für die Bilderkennung (Resnet)
- ? 2016: Sie schauen nur einmal nach: Unified, Echtzeit-Objekterkennung (YOLO)
- ? 2017: Aufmerksamkeit ist alles, was Sie brauchen (Transformator)
- ? 2018: Bert: Vorausbildung von tiefen bidirektionalen Transformatoren für das Sprachverständnis (Bert)
- ? 2020: Sprachmodelle sind nur wenige Schusslernende (GPT-3)
- ? 2020: Denoising diffusion probabilistische Modelle (DDPM)
- ? 2020: Ein Bild ist 16x16 Wörter wert: Transformatoren für die Bilderkennung im Maßstab (VIT)
- ? 2021: Hoch genaue Proteinstrukturvorhersage mit Alphafold (Alphafold)
- ? 2022: CHATGPT: Sprachmodelle für den Dialog optimieren (CHATGPT)