AGI Papers Download - AGI Papers Quellcode Download

AGI Papers

Anderer Quellcode

1.0.0

Herunterladen

? Agi-Papier?

Llm · nlp
Text2all · All2all
Multi-Modal · Multi-Task

_{Lassen Sie uns die neuesten und verschiedenen LLM-bezogenen Papiere herausfinden. ? ‍Eitung? ‍♀️ von Stargazers}

Neue Papiere

MOMA: Effiziente Frühfusion vor der Training mit Mischung aus modalitätsbewussten Experten
MOVA: Anpassung der Mischung von Visionsexperten an einen multimodalen Kontext
Zur Selbstverbesserung von LLMs durch Vorstellungskraft, Suche und Kritik
Chat -Vektor: Ein einfacher Ansatz zur Ausrüstung von LLMs mit Anweisungen und Modellausrichtung in neuen Sprachen
Von R nach Q ∗: Ihr Sprachmodell ist heimlich eine Q-Funktion
Mamba: Modellierung der linearen Zeitsequenz mit selektiven Zustandsräumen
PHI-3-technischer Bericht: Ein sehr fähiges Sprachmodell vor Ort auf Ihrem Telefon
DORA: Gewichtsbekämpfte Anpassung mit niedriger Rang
Many-Shot-In-Kontext-Lernen

vor 2024

Kognitive Synergie in Großsprachenmodellen entfesseln: Ein Aufgabenlösungsagent durch Multi-Personen-Selbstkollaboration

Die menschliche Intelligenz lebt von dem Konzept der kognitiven Synergie, wo die Zusammenarbeit und Informationsintegration zwischen verschiedenen kognitiven Prozessen im Vergleich zu individuellen kognitiven Prozessen isoliert überlegene Ergebnisse liefern. Obwohl große Sprachmodelle (LLMs) als allgemeine Aufgabenlösungsmittel eine vielversprechende Leistung gezeigt haben, haben sie immer noch Probleme mit Aufgaben, die intensives Domänenwissen und komplexes Denken erfordern. In dieser Arbeit schlagen wir eine Solo-Leistung (SPP) vor, die ein einzelnes LLM in einen kognitiven Synergisten verwandelt, indem sie sich mit mehreren Personas mit mehreren Turn-Selbstkollaborien befassen. Ein kognitiver Synergist bezieht sich auf einen intelligenten Agenten, der mit mehreren Köpfen zusammenarbeitet und seine individuellen Stärken und Kenntnisse kombiniert, um die Problemlösung und die Gesamtleistung in komplexen Aufgaben zu verbessern. Durch die dynamische Identifizierung und Simulation verschiedener Personas basierend auf Aufgabeneingaben entfesselt SPP das Potenzial kognitiver Synergien in LLMs. Wir haben festgestellt, dass die Zuordnung mehrerer, feinkörniger Personas in LLMs im Vergleich zur Verwendung einer einzelnen oder festen Anzahl von Personas bessere Fähigkeiten zur Problemlösung hervorruft. Wir bewerten SPP an drei herausfordernden Aufgaben: Trivia Creative Writing, Codenames Collaborative und Logic Grid Puzzle, das sowohl wissensintensive als auch argumentationsintensive Typen umfasst. Im Gegensatz zu früheren Arbeiten wie dem Gedanken der Kette, die ausschließlich die Argumentationsfähigkeiten in LLMs erhöhen, löst SPP die Fähigkeiten für die Erwerb von internen Wissen effektiv, verringert die Halluzination und behält starke Argumentationsfähigkeiten bei. Code, Daten und Eingabeaufforderungen finden Sie unter: Diese HTTPS -URL.

LLM-Blender: Ensembling Großsprachenmodelle mit paarweise Ranking und generative Fusion

Wir präsentieren LLM-Blender, ein Ensembling-Rahmen, um eine konsequent überlegene Leistung zu erzielen, indem wir die verschiedenen Stärken mehrerer Großspracher-Modelle (LLMs) einsetzen. Unser Rahmen besteht aus zwei Modulen: Pairranker und Genfuser, die sich mit der Beobachtung befassen, dass optimale LLMs für verschiedene Beispiele erheblich variieren können. Pairranker verwendet eine spezialisierte paarweise Vergleichsmethode, um subtile Unterschiede zwischen Kandidatenausgaben zu unterscheiden. Es codiert gemeinsam den Eingangstext und ein Kandidatenpaar unter Verwendung von Cross-Tent-Encodern, um den überlegenen zu bestimmen. Unsere Ergebnisse zeigen, dass Pairranker die höchste Korrelation mit dem ChatGPT-basierten Ranking aufweist. Dann möchte Genfuser die hochrangigen Kandidaten verschmelzen, wodurch eine verbesserte Leistung erzeugt wird, indem sie ihre Stärken nutzen und ihre Schwächen mildern. Um eine groß angelegte Bewertung zu erleichtern, stellen wir einen Benchmark-Datensatz MixInstruct ein, bei dem es sich um eine Mischung aus mehreren Befehlsdatensätzen mit paarweisen Vergleiche mit Oracle handelt. Unser LLM-Blender übertrifft die einzelnen LLMs und Basismethoden in verschiedenen Metriken erheblich und stellt eine erhebliche Leistungslücke fest.

Leandojo: Theorem, der mit retrieval-aushüfteten Sprachmodellen beweist

Große Sprachmodelle (LLMs) haben vielversprechend gezeigt, als sie formelle Theoreme mit Beweisassistenten wie Lean nachweisen. Bestehende Methoden sind jedoch aufgrund von privaten Code, Daten und großen Berechnungsproblemen schwer zu reproduzieren oder aufzubauen. Dies hat wesentliche Hindernisse für die Erforschung maschineller Lernmethoden für Theorem -Beweise geschaffen. In diesem Artikel wird diese Barrieren entfernt, indem Leandojo eingeführt wird: einen Open-Source-Lean-Spielplatz, der aus Toolkits, Daten, Modellen und Benchmarks besteht. Leandojo extrahiert Daten aus Lean und ermöglicht die Interaktion mit der Proof -Umgebung programmgesteuert. Es enthält feinkörnige Anmerkungen von Räumlichkeiten in Beweisen, die wertvolle Daten für die Auswahl der Prämisse liefern-ein wichtiger Engpass im Satz von Satz. Mit diesen Daten entwickeln wir Reprover (Abruf-ausgerüsteten Prover): Der erste LLM-basierte Prover, der durch Abruf für die Auswahl von Räumlichkeiten aus einer riesigen Mathematikbibliothek verstärkt wird. Es ist kostengünstig und braucht nur eine GPU -Trainingswoche. Unser Retriever nutzt Leandojos Programmanalyse -Fähigkeit, zugängliche Räumlichkeiten und harte negative Beispiele zu identifizieren, was das Abruf viel effektiver macht. Darüber hinaus erstellen wir einen neuen Benchmark, der aus 96.962 Theoreme und Proofs besteht, die aus Lean's Math Library extrahiert wurden. Es verfügt über herausfordernde Daten aufgeteilt, für die der Prover auf Theoreme verallgemeinert werden muss, die sich auf neuartige Räumlichkeiten stützen, die nie im Training verwendet werden. Wir verwenden diesen Benchmark für Training und Bewertung, und experimentelle Ergebnisse zeigen die Wirksamkeit des Nachschubs gegenüber nicht-zurückhaltenden Baselines und GPT-4. Wir bieten somit den ersten Satz von Open-Source-LLM-basierten Theorem-Provers ohne proprietäre Datensätze an und veröffentlichen sie im Rahmen einer zulässigen MIT-Lizenz, um weitere Forschung zu erleichtern.

VIPERGPT: Visuelle Inferenz durch Python -Ausführung für die Argumentation

Die Beantwortung visueller Abfragen ist eine komplexe Aufgabe, die sowohl visuelle Verarbeitung als auch Argumentation erfordert. End-to-End-Modelle, der dominierende Ansatz für diese Aufgabe, unterscheiden nicht explizit zwischen den beiden und begrenzt die Interpretierbarkeit und Verallgemeinerung. Das Erlernen modularer Programme zeigt eine vielversprechende Alternative, hat sich jedoch aufgrund der Schwierigkeit, sowohl die Programme als auch die Module gleichzeitig zu lernen, eine Herausforderung erwiesen. Wir stellen VIPergpt vor, ein Rahmen, das Code-Generation-Modelle nutzt, um Seh- und Sprachmodelle in Unterprogramme zu komponieren, um ein Ergebnis für jede Abfrage zu erzielen. VIPergpt verwendet eine bereitgestellte API, um auf die verfügbaren Module zuzugreifen, und komponiert sie, indem sie später ausgeführt wird. Dieser einfache Ansatz erfordert kein weiteres Training und erzielt hochmoderne Ergebnisse in verschiedenen komplexen visuellen Aufgaben.

Longnet: Skalierung von Transformatoren auf 1.000.000.000 Token

Die Skalierungssequenzlänge ist im Zeitalter großer Sprachmodelle zu einer kritischen Nachfrage geworden. Vorhandene Methoden haben jedoch entweder mit der Complex- oder Modell -Expressivität zu kämpfen, wodurch die maximale Sequenzlänge eingeschränkt wird. In dieser Arbeit stellen wir Longnet vor, eine Transformatorvariante, die die Sequenzlänge auf mehr als 1 Milliarde Token skalieren kann, ohne die Leistung für kürzere Sequenzen zu beeinträchtigen. Insbesondere schlagen wir eine erweiterte Aufmerksamkeit vor, die das aufmerksame Feld exponentiell erweitert, wenn der Abstand wächst. Longnet hat erhebliche Vorteile: 1) Es hat eine lineare Berechnungskomplexität und eine Logarithmusabhängigkeit zwischen Token; 2) Es kann als verteilter Trainer für extrem lange Sequenzen serviert werden. 3) Seine erweiterte Aufmerksamkeit ist ein Drop-In-Ersatz für die Standardaufmerksamkeit, die nahtlos in die vorhandene transformatorbasierte Optimierung integriert werden kann. Die Ergebnisse der Experimente zeigen, dass LongNet sowohl bei der Langzeitmodellierung als auch bei allgemeinen Sprachaufgaben eine starke Leistung liefert. Unsere Arbeit eröffnet neue Möglichkeiten für die Modellierung sehr langer Sequenzen, z. B. die Behandlung eines ganzen Korpus oder sogar des gesamten Internets als Sequenz.

Bild als Fremdsprache: BEIT-Vorbereitung für alle Seh- und Visionsprachenaufgaben

Eine große Konvergenz von Sprache, Vision und multimodalem Vorbau entsteht. In dieser Arbeit stellen wir ein allgemeines multimodales Foundation-Modell BEIT-3 ein, das eine hochmoderne Transferleistung sowohl für Vision- als auch für Vision-Sprache-Aufgaben erzielt. Insbesondere bringen wir die große Konvergenz aus drei Aspekten vor: Rückgratarchitektur, Vorbereitungsaufgabe und Modellskalierung. Wir führen Multiway-Transformatoren für die allgemeine Modellierung vor, bei denen die modulare Architektur sowohl eine tiefe Fusion als auch modalitätsspezifische Codierung ermöglicht. Basierend auf dem gemeinsam genutzten Rückgrat führen wir maskierte "Sprach" -Modellierung für Bilder (IMglische), Texte (Englisch) und Bildtextpaare ("Parallel Sätze") auf einheitliche Weise durch. Experimentelle Ergebnisse zeigen, dass BEIT-3 die Leistung des Stand der Technik bei Objekterkennung (COCO), semantischer Segmentierung (ADE20K), Bildklassifizierung (ImageNet), visuelles Denken (NLVR2), visueller Beantwortung (VQAV2), Bildunterschrift (COCO) und COCKO-ARBEWERTUNG (FLICKR30K, COCO) erhält.

? Gorilla: großes Sprachmodell, das mit massiven APIs verbunden ist

Große Sprachmodelle (LLMs) haben in letzter Zeit eine beeindruckende Welle von Fortschritten verzeichnet, wobei Modelle jetzt in einer Vielzahl von Aufgaben wie mathematisches Denken und Programmsynthese hervorragend waren. Ihr Potenzial, Tools über API -Aufrufe effektiv zu verwenden, bleibt jedoch unerfüllt. Dies ist eine herausfordernde Aufgabe, selbst für die heutigen hochmodernen LLMs wie GPT-4, hauptsächlich aufgrund ihrer Unfähigkeit, genaue Eingabargumente und ihre Tendenz, die falsche Verwendung eines API-Anrufs zu erzeugen. Wir veröffentlichen Gorilla, ein mit Funkuned Lama basierendes Modell, das die Leistung von GPT-4 für das Schreiben von API-Aufrufen übertrifft. In Kombination mit einem Dokument-Retriever zeigt Gorilla eine starke Fähigkeit, sich an Änderungen der Testzeit zu ändern und flexible Benutzeraktualisierungen oder Versionsänderungen zu aktivieren. Es mildert auch das Problem der Halluzination, das bei direkter Aufnahme von LLMs häufig auftritt. Um die Fähigkeit des Modells zu bewerten, stellen wir Apibench vor, einen umfassenden Datensatz, der aus Harmgingface, Torchhub und TensorHub -APIs besteht. Die erfolgreiche Integration des Abrufsystems mit Gorilla zeigt das Potenzial für LLMs, Tools genauer zu verwenden, mit der häufig aktualisierten Dokumentation Schritt zu halten und folglich die Zuverlässigkeit und Anwendbarkeit ihrer Ausgaben zu erhöhen. Das Modell und der Code von Gorilla sind unter https://github.com/shishirpatil/gorilla verfügbar.

÷? Chamäleon: Plug-and-Play-Kompositionsregen mit GPT-4

Große Sprachmodelle (LLMs) haben bei verschiedenen Aufgaben der Verarbeitung natürlicher Sprache mit aufkommenden Fähigkeiten einen bemerkenswerten Fortschritt erzielt. Sie sind jedoch inhärenten Einschränkungen ausgesetzt, z. B. der Unfähigkeit, auf aktuelle Informationen zuzugreifen, externe Tools zu verwenden oder präzise mathematische Argumentation durchzuführen. In diesem Artikel stellen wir Chameleon vor, ein Plug-and-Play-Kompositions-Argumentations-Framework, das LLMs erhöht, um diese Herausforderungen zu bewältigen. Chameleon synthetisiert Programme, um verschiedene Tools zu komponieren, darunter LLM-Modelle, Off-the-Shelf-Visionsmodelle, Web-Suchmaschinen, Python-Funktionen und regelbasierte Module, die auf Benutzerinteressen zugeschnitten sind. Chamäleon ist als natürlicher Sprachplaner auf einem LLM aufgebaut und färbt die geeignete Folge von Tools zum Komponieren und Ausführen, um eine endgültige Antwort zu erzeugen. Wir präsentieren die Anpassungsfähigkeit und Wirksamkeit von Chamäleon bei zwei Aufgaben: Scienceqa und Tabmwp. Bemerkenswerterweise erreicht Chamäleon mit GPT-4 eine Genauigkeit von 86,54% auf ScienceQA und verbessert sich signifikant um das am besten veröffentlichte wenige Schussmodell um 11,37%. Mit GPT-4 als zugrunde liegender LLM erzielt Chameleon eine Erhöhung des hochmodernen Modells um 17,8%, was zu einer Gesamtgenauigkeit von 98,78% auf TABMWP führt. Weitere Studien legen nahe, dass die Verwendung von GPT-4 als Planer eine konsistentere und rationale Werkzeugauswahl aufweist und angesichts der Anweisungen im Vergleich zu anderen LLMs wie ChatGPT potenzielle Einschränkungen schließen kann.

Lama-Adapter V2: Parameter-effizientes visuelles Anweisungsmodell

Wie man große Sprachmodelle (LLMs) effizient in Anleitungsanlagen umwandle, ist kürzlich eine beliebte Forschungsrichtung, während das Training von LLM für multimodales Denken weiterhin weniger erforscht bleibt. Obwohl der jüngste Lama-Adapter das Potenzial zeigt, visuelle Eingaben mit LLMs zu verarbeiten, kann er immer noch nicht gut auf offene visuelle Anweisungen und Verzögerungen hinter GPT-4 verallgemeinern. In diesem Artikel präsentieren wir Lama-Adapter V2, ein parametereffizientes visuelles Anweisungsmodell. Insbesondere erweitern wir zunächst den Lama-Adapter, indem wir mehr lernbare Parameter (z. B. Norm, Voreingenommenheit und Skala) entsperrten, die neben Adaptern die Fähigkeit zum Anweisungsverfolgung über das gesamte LLAMA-Modell verteilen. Zweitens schlagen wir eine frühe Fusionsstrategie vor, um visuelle Token nur in die frühen LLM -Schichten zu füttern, was zu einer besseren Einbeziehung des visuellen Wissens beiträgt. Drittens wird ein gemeinsames Trainingsparadigma von Bildtextpaaren und Anweisungsverfolgungdaten eingeführt, indem disjunkte Gruppen von lernbaren Parametern optimiert werden. Diese Strategie lindert effektiv die Interferenz zwischen den beiden Aufgaben der Ausrichtung der Bildtext und den Anweisungen und erreicht ein starkes multimodales Denken mit nur einem kleinen Bildtext- und Anweisungsdatensatz. Während der Inferenz integrieren wir zusätzliche Expertenmodelle (z. B. Bildunterschriften/OCR-Systeme) in Lama-Adapter, um die Fähigkeit zum Imageverständnis weiter zu verbessern, ohne Schulungskosten zu entstehen. Im Vergleich zum ursprünglichen Lama-Adapter kann unser Lama-Adapter V2 offene multimodale Anweisungen ausführen, indem er lediglich 14 mische Parameter über Lama einführt. Das neu gestaltete Framework zeigt auch eine stärkere Funktionsfunktionen nur in der Sprache und sogar in Chat-Interaktionen. Unsere Code und Modelle sind bei dieser HTTPS -URL verfügbar.

Generative Agents: Interaktive Simulacra des menschlichen Verhaltens

Glaubwürdige Proxys des menschlichen Verhaltens können interaktive Anwendungen ermöglichen, die von immersiven Umgebungen über Probenräume für die zwischenmenschliche Kommunikation bis hin zu Prototyping -Tools reichen. In diesem Artikel stellen wir generative Agenten vor-Bereitstellungssoftware-Agenten, die glaubwürdiges menschliches Verhalten simulieren. Generative Agents wachen auf, Frühstück kochen und gehen zur Arbeit; Künstler malen, während Autoren schreiben; Sie bilden Meinungen, bemerken sich gegenseitig und initiieren Gespräche. Sie erinnern sich und denken über Tage nach, die sie am nächsten Tag planen. Um generative Agenten zu ermöglichen, beschreiben wir eine Architektur, die ein großes Sprachmodell erweitert, um eine vollständige Aufzeichnung der Erfahrungen des Agenten mithilfe der natürlichen Sprache zu speichern, diese Erinnerungen im Laufe der Zeit in Überlegungen auf höherer Ebene zu synthetisieren und sie dynamisch zu rufen, um das Verhalten zu planen. Wir instanziieren generative Agenten, um eine interaktive Sandbox -Umgebung zu bevölkern, die von den Sims inspiriert ist und in der Endbenutzer mit einer kleinen Stadt mit fünfundzwanzig Agenten mit natürlicher Sprache interagieren können. In einer Bewertung produzieren diese generativen Agenten glaubwürdige individuelle und aufstrebende soziale Verhaltensweisen: Beispielsweise mit einer einzigen benutzerdefinierten Vorstellung, dass ein Agent eine Valentinstagspartei veranstalten möchte, verbreiten die Agenten die Agenten autonom Einladungen in die Party in den nächsten zwei Tagen, machen Sie sich gegenseitig die Party und koordinieren Sie die Party, um die Party zusammen zu koordinieren, um die Party zusammen mit der Party zu zeigen, um zusammen die Party zu zeigen, um zusammen die Zeit zu zeigen, um sich an der richtigen Zeit zu zeigen. Wir zeigen durch Ablation, dass die Komponenten unserer Agentenarchitektur-Beobachtung, Planung und Reflexion-kritisch zur Glaubwürdigkeit des Verhaltens des Agenten beitragen. Durch die Verschmelzung von großsprachigen Modellen mit rechnerischen, interaktiven Wirkstoffen führt diese Arbeit architektonische und Interaktionsmuster ein, um glaubwürdige Simulationen des menschlichen Verhaltens zu ermöglichen.

Reflexion: Ein autonomer Agent mit dynamischem Gedächtnis und Selbstreflexion

Die jüngsten Fortschritte bei der Entscheidungsfindung des großen Sprachmodells (LLM) haben in verschiedenen Benchmarks eine beeindruckende Leistung gezeigt. Diese hochmodernen Ansätze erfordern jedoch typischerweise eine Feinabstimmung, Feinabstimmung für externe Modells oder eine politische Optimierung über einen definierten Zustandsraum. Die Implementierung dieser Methoden kann aufgrund der Mangel an hochwertigen Trainingsdaten oder des Mangels an gut definierten Zustandsraum eine Herausforderung erweisen. Darüber hinaus besitzen diese Agenten keine bestimmten Eigenschaften, die menschlichen Entscheidungsprozessen innewohnt, insbesondere die Fähigkeit, aus Fehlern zu lernen. Die Selbstreflexion ermöglicht es dem Menschen, neue Probleme durch einen Prozess der Versuch und Irrtum effizient zu lösen. Aufbauend auf den neuesten Forschungen schlagen wir Reflexion vor, einen Ansatz, der einen Agenten mit dynamischem Gedächtnis und Selbstreflexionsfunktionen verleiht, um seine vorhandenen Fähigkeiten zur Auswahl der Argumentation und der aufgabenspezifischen Aktion zu verbessern. Um eine vollständige Automatisierung zu erreichen, stellen wir eine einfache, aber effektive Heuristik vor, mit der der Agent Halluzinationsinstanzen bestimmen, Wiederholungen in Aktionssequenzen vermeiden und in einigen Umgebungen eine interne Speicherkarte der angegebenen Umgebung erstellen können. Um unseren Ansatz zu bewerten, bewerten wir die Fähigkeit des Agenten, Entscheidungsaufgaben in AlfWorld-Umgebungen und wissensintensive, suchbasierte Fragen und Antworten in HotpotQA-Umgebungen zu erledigen. Wir beobachten die Erfolgsraten von 97% bzw. 51% und geben eine Diskussion über die aufstrebende Eigenschaft der Selbstreflexion.

Self-Refine: iterative Verfeinerung mit Selbstfütterung

LLMs generieren wie Menschen nicht immer den besten Text für ein bestimmtes Erzeugungsproblem bei ihrem ersten Versuch (z. B. Zusammenfassungen, Antworten, Erklärungen). So wie Menschen ihren Text dann verfeinern, führen wir Selbstrefine ein, einen Rahmen für die ähnliche Verbesserung der anfänglichen Ausgaben von LLMs durch iteratives Feedback und Verfeinerung. Die Hauptidee besteht darin, eine Ausgabe mit einem LLM zu generieren und dann das gleiche Modell mit mehreren Aspekten Feedback für seine eigene Ausgabe bereitzustellen. Schließlich verfeinert dasselbe Modell seine zuvor erzeugte Ausgabe bei seinem eigenen Feedback. Im Gegensatz zu früheren Arbeiten erfordert unser iteratives Verfeinerungsrahmen keine beaufsichtigten Trainingsdaten oder Verstärkungslernen und funktioniert mit einem einzigen LLM. Wir experimentieren mit 7 verschiedenen Aufgaben, die von der Überprüfung der Umschreibung bis zum mathematischen Denken reichen, und zeigen, dass unser Ansatz die direkte Generation übertrifft. Bei allen Aufgaben werden die mit Selbstbekämpfung erzeugten Ausgänge von Menschen und automatisierte Metriken gegenüber den direkten mit GPT-3,5 und GPT-4 bevorzugt, was durchschnittlich um die Absolute um 20% hinweg hinweg verbessert.

Hugginggpt: Lösen von KI -Aufgaben mit Chatgpt und seinen Freunden in Suggingface

Das Lösen komplizierter KI -Aufgaben mit unterschiedlichen Domänen und Modalitäten ist ein wesentlicher Schritt in Richtung fortgeschrittener künstlicher Intelligenz. Obwohl für verschiedene Domänen und Modalitäten reichlich KI -Modelle verfügbar sind, können sie nicht mit komplizierten KI -Aufgaben umgehen. In Anbetracht der großartigen Sprachmodelle (LLMs) haben wir eine außergewöhnliche Fähigkeit im Sprachverständnis, der Generierung, der Interaktion und des Arguments gezeigt. Basierend auf dieser Philosophie präsentieren wir HuggingGpt, einen Rahmen, der LLMs (z. B. Chatgpt) nutzt, um verschiedene KI -Modelle in maschinellen Lerngemeinschaften (z. B. umarmt) zu verbinden, um KI -Aufgaben zu lösen. Insbesondere verwenden wir ChatGPT, um die Aufgabenplanung durchzuführen, wenn wir eine Benutzeranforderung empfangen, Modelle entsprechend der im Umarmungsgesicht verfügbaren Funktionsbeschreibungen auswählen, jede Subtask mit dem ausgewählten AI -Modell ausführen und die Antwort gemäß den Ausführungsergebnissen zusammenfassen. Durch die Nutzung der starken Sprachfähigkeit von Chatgpt- und reichlich vorhandenen KI -Modellen im Umarmungsgesicht kann HuggingGPT zahlreiche ausgefeilte KI -Aufgaben in verschiedenen Modalitäten und Domänen abdecken und beeindruckende Ergebnisse in Sprach-, Vision, Sprache und anderen herausfordernden Aufgaben erzielen, die einen neuen Weg in Richtung Fortschritt künstlicher Intelligenz bilden.

Auto-GPT: Ein autonomes GPT-4-Experiment

Auto-GPT ist eine experimentelle Open-Source-Anwendung, die die Funktionen des GPT-4-Sprachmodells zeigt. Dieses Programm, das von GPT-4 angetrieben wird, Ketten zusammen "Gedanken", um das von Ihnen festgelegte Ziel autonom zu erreichen. Als eines der ersten Beispiele für GPT-4, die vollständig autonom ausgeführt werden, überschreitet Auto-GPT die Grenzen dessen, was mit KI möglich ist.

FREGALGPT: Wie man große Sprachmodelle verwendet, gleichzeitig die Kosten senkt und die Leistung verbessert

Es gibt eine schnell wachsende Anzahl großer Sprachmodelle (LLMs), die Benutzer gegen eine Gebühr abfragen können. Wir überprüfen die Kosten, die mit der Abfrage beliebter LLM-APIs, EG GPT-4, Chatgpt, J1-Jumbo, abfragen, und stellen fest, dass diese Modelle heterogene Preisstrukturen haben, wobei Gebühren, die sich um zwei Größenordnungen unterscheiden können, unterscheiden können. Insbesondere kann die Verwendung von LLMs bei großen Sammlungen von Abfragen und Text teuer sein. Aus diesem Grund motiviert, skizzieren und diskutieren wir drei Arten von Strategien, die Benutzer ausnutzen können, um die mit der Verwendung von LLMs verbundenen Inferenzkosten zu verringern: 1) Einlaufende Anpassung, 2) LLM -Näherung und 3) LLM -Kaskade. Zum Beispiel schlagen wir Frugalgpt vor, eine einfache, aber flexible Instanziierung von LLM -Kaskade, die erfährt, welche Kombinationen von LLMs für verschiedene Abfragen verwendet werden sollen, um die Kosten zu senken und die Genauigkeit zu verbessern. Unsere Experimente zeigen, dass Frugalgpt mit der Leistung des besten einzelnen LLM (z. B. GPT-4) mit einer Kostenreduzierung von bis zu 98% übereinstimmen oder die Genauigkeit gegenüber GPT-4 um 4% mit den gleichen Kosten verbessern kann. Die hier vorgestellten Ideen und Erkenntnisse bilden eine Grundlage für die Verwendung von LLMs nachhaltig und effizient.

Leandojo: Theorem, der mit retrieval-aushüfteten Sprachmodellen beweist

Große Sprachmodelle (LLMs) haben vielversprechend gezeigt, als sie formelle Theoreme mit Beweisassistenten wie Lean nachweisen. Bestehende Methoden sind jedoch aufgrund von privaten Code, Daten und großen Berechnungsproblemen schwer zu reproduzieren oder aufzubauen. Dies hat wesentliche Hindernisse für die Erforschung maschineller Lernmethoden für Theorem -Beweise geschaffen. In diesem Artikel wird diese Barrieren entfernt, indem Leandojo eingeführt wird: einen Open-Source-Lean-Spielplatz, der aus Toolkits, Daten, Modellen und Benchmarks besteht. Leandojo extrahiert Daten aus Lean und ermöglicht die Interaktion mit der Proof -Umgebung programmgesteuert. Es enthält feinkörnige Anmerkungen von Räumlichkeiten in Beweisen, die wertvolle Daten für die Auswahl der Prämisse liefern-ein wichtiger Engpass im Satz von Satz. Mit diesen Daten entwickeln wir Reprover (Abruf-ausgerüsteten Prover): Der erste LLM-basierte Prover, der durch Abruf für die Auswahl von Räumlichkeiten aus einer riesigen Mathematikbibliothek verstärkt wird. Es ist kostengünstig und braucht nur eine GPU -Trainingswoche. Unser Retriever nutzt Leandojos Programmanalyse -Fähigkeit, zugängliche Räumlichkeiten und harte negative Beispiele zu identifizieren, was das Abruf viel effektiver macht. Darüber hinaus erstellen wir einen neuen Benchmark, der aus 96.962 Theoreme und Proofs besteht, die aus Lean's Math Library extrahiert wurden. Es verfügt über herausfordernde Daten aufgeteilt, für die der Prover auf Theoreme verallgemeinert werden muss, die sich auf neuartige Räumlichkeiten stützen, die nie im Training verwendet werden. Wir verwenden diesen Benchmark für Training und Bewertung, und experimentelle Ergebnisse zeigen die Wirksamkeit des Nachschubs gegenüber nicht-zurückhaltenden Baselines und GPT-4. Wir bieten somit den ersten Satz von Open-Source-LLM-basierten Theorem-Provers ohne proprietäre Datensätze an und veröffentlichen sie im Rahmen einer zulässigen MIT-Lizenz, um weitere Forschung zu erleichtern.

Erforschung des merkwürdigen Falls von Code -Eingabeaufforderungen

Jüngste Arbeiten haben gezeigt, dass das Aufbringen von Sprachmodellen mit codemartigen Darstellungen natürlicher Sprache zu Leistungsverbesserungen bei strukturierten Argumentationsaufgaben führt. Solche Aufgaben umfassen jedoch nur eine kleine Untergruppe aller natürlichen Sprachaufgaben. In unserer Arbeit versuchen wir zu beantworten, ob Code-Förderung die bevorzugte Art der Interaktion mit Sprachmodellen im Allgemeinen ist oder nicht. Wir vergleichen Code- und Textaufforderungen in drei beliebten GPT-Modellen (Davinci, Code-Davinci-002 und Text-Davinci-002) mit einer breiteren Auswahl von Aufgaben (z. B. QA, Stimmung, Summarierung) und stellen fest, dass mit wenigen Ausnahmen die Code-Eingabeaufforderungen nicht konsequent übertreffen. Darüber hinaus zeigen wir, dass der Stil der Code-Eingabeaufforderung einen großen Einfluss auf die Leistung für einige, aber nicht alle Aufgaben hat und dass die Feinabstimmung in Textanweisungen zu einer besseren relativen Leistung von Code-Eingaben führt.

Können Sprachmodelle schwächere Agenten lehren? Erklärungen der Lehrer verbessern die Schüler durch Theorie des Geistes

Große Sprachmodelle (LLMs) führen komplexe Argumentation durch, indem sie Erklärungen für ihre Vorhersagen generieren. Ein ergänzendes Ziel von Erklärungen ist es jedoch, auch nützliches Wissen zu vermitteln, das schwächere Agenten verbessert. Daher untersuchen wir, ob LLMs auch gute Lehrer für schwächere Agenten machen. Insbesondere betrachten wir einen Schüler-Lehrer-Rahmen zwischen zwei LLM-Agenten und studieren, ob und wie der Lehrer mit Erklärungen der natürlichen Sprache eingreifen sollte, um die Leistung des Schülers zu verbessern. Da die Kommunikation teuer ist, definieren wir ein Budget so, dass der Lehrer nur Erklärungen für einen Bruchteil der Daten vermittelt, wonach der Schüler alleine gute Leistungen erbringt. Wir zersetzen das Lehrproblem entlang von vier Achsen: (1) Wenn die Testzeitinterventionen des Lehrers die Vorhersagen der Schüler verbessern, (2) Wenn es sich lohnt, einen Datenpunkt zu erklären, (3) wie der Lehrer Erklärungen personalisieren sollte, um den Schüler besser zu unterrichten, und (4), wenn die Erklärungen der Lehrer auch die Leistung der Schüler in zukünftigen unerklärlichen Daten verbessern. Wir zeigen zunächst, dass Lehrer -LLMs tatsächlich in die Argumentation der Schüler eingreifen können, um ihre Leistung zu verbessern. Als nächstes schlagen wir einen Ansatz der Theorie des Geistes vor, bei dem der Lehrer zwei wenige scheine mentale Modelle des Schülers baut. Das erste Modell definiert eine Interventionsfunktion, die den Nutzen einer Intervention simuliert und es dem Lehrer ermöglicht, einzugreifen, wenn dieses Versorgungsunternehmen die höchste und verbesserte Leistung der Schüler in niedrigeren Budgets ist. Das zweite Modell ermöglicht es dem Lehrer, Erklärungen für einen bestimmten Schüler zu personalisieren und nicht nichtpersonalisierte Lehrer zu übertreffen. Wir zeigen auch, dass in Interaktionen mit mehreren Turn-Turn-Interaktionen die Erklärungen für Lehrer aus erklärten Daten verallgemeinert und lernt, die die Leistung der Schüler in zukünftigen ungeklärten Daten verbessert. Schließlich überprüfen wir auch, dass falsch ausgerichtete Lehrer die Leistung der Schüler senken können, indem sie sie absichtlich irreführen.

[Kosmos-2: Erde multimodale Großsprachenmodelle für die Welt]

Wir führen Kosmos-2 vor, ein multimodales Großsprachmodell (MLLM), das neue Fähigkeiten zur Wahrnehmung von Objektbeschreibungen (z. B. Begrenzungsboxen) und dem Erdungstext für die visuelle Welt ermöglicht. Insbesondere repräsentieren wir Ausdrücke als Links in Markdown, dh "[Textspan] (Begrenzungsfelder)", wobei Objektbeschreibungen Sequenzen von Standort -Token sind. Zusammen mit multimodalen Korpora erstellen wir große Daten von geerdeten Bildtextpaaren (als Grit bezeichnet), um das Modell zu trainieren. Zusätzlich zu den vorhandenen Funktionen von MLLMs (z. B. das Wahrnehmung allgemeiner Modalitäten, nach Anweisungen und Durchführung von In-Kontext-Lernen) integriert Kosmos-2 die Erdungsfunktion in nachgeschaltete Anwendungen. Wir bewerten Kosmos-2 an einer Vielzahl von Aufgaben, einschließlich (i) multimodaler Grundierung, z. B. das Verständnis des Expression und die Ausdrucksgründe, (ii) multimodales Verweisen, wie die Überweisung der Expressionsgenerierung, (iii) Wahrnehmungssprachenaufgaben und (iv) das Verständnis und die Erzeugung von Sprachen. Diese Arbeit legt die Grundlage für die Entwicklung der Verkörperung von KI und beleuchtet die große Konvergenz von Sprache, multimodaler Wahrnehmung, Handeln und Weltmodellierung, was ein wesentlicher Schritt zur künstlichen allgemeinen Intelligenz ist. Code und vorbereitete Modelle sind bei dieser HTTPS -URL verfügbar.

Technischer Bericht von Palm 2

Wir stellen Palm 2 vor, ein neues hochmodernes Sprachmodell, das bessere mehrsprachige und argumentationsfähige Funktionen hat und recheneffizienter ist als seine Vorgängerpalme. Palm 2 ist ein transformatorbasiertes Modell, das mit einer Mischung von Zielen trainiert wird. Durch umfangreiche Bewertungen über englische und mehrsprachige Sprache und Argumentationsaufgaben zeigen wir, dass Palm 2 die Qualität bei nachgeschalteten Aufgaben in verschiedenen Modellgrößen erheblich verbessert und gleichzeitig eine schnellere und effizientere Inferenz im Vergleich zu Palm aufweist. Diese verbesserte Effizienz ermöglicht eine breitere Bereitstellung und ermöglicht es dem Modell gleichzeitig, schneller zu reagieren, um ein natürlicheres Interaktionstempo zu erzielen. Palm 2 zeigt robuste Argumentationsfunktionen, die durch große Verbesserungen gegenüber Palm bei Big-Bench und anderen Argumentationsaufgaben veranschaulicht werden. Palm 2 zeigt eine stabile Leistung bei einer Reihe verantwortungsbewusster AI-Bewertungen und ermöglicht die Inferenzzeitkontrolle über die Toxizität ohne zusätzlichen Overhead oder Auswirkungen auf andere Funktionen. Insgesamt erzielt Palm 2 eine modernste Leistung in verschiedenen Aufgaben und Fähigkeiten.

MotionGPT: Finetuned LLMs sind allgemeine Bewegungsgeneratoren

Die Erzeugung von realistischen menschlichen Bewegungen aus gegebenen Handlungsbeschreibungen hat aufgrund der aufkommenden Anforderung digitaler Menschen erhebliche Fortschritte erzielt. Während jüngste Arbeiten beeindruckende Ergebnisse erzielt haben, um Bewegung direkt aus textlichen Aktionsbeschreibungen zu erzeugen, unterstützen sie häufig nur eine einzige Modalität des Kontrollsignals, die ihre Anwendung in der realen digitalen menschlichen Industrie einschränkt. Dieses Papier präsentiert einen General-Purple-Generator (MotionGPT), der multimodale Kontrollsignale, z. B. Text- und Einzelrahmen-Posen verwenden kann, um aufeinanderfolgende menschliche Bewegungen zu erzeugen, indem multimodale Signale als spezielle Eingangsmarke in Großsprachenmodellen (LLMs) behandelt werden. Insbesondere quantisieren wir zunächst multimodale Kontrollsignale in diskrete Codes und formulieren sie dann in einer einheitlichen Eingabeaufforderung, um die LLMs zu bitten, die Bewegungsantwort zu generieren. Unser MotionGPT zeigt ein einheitliches Modell der menschlichen Bewegungsgenerierung mit multimodalen Kontrollsignalen, indem nur 0,4% der LLM -Parameter eingestellt werden. Nach unserem Wissen ist MotionGPT die erste Methode, um durch multimodale Kontrollsignale menschliche Bewegungen zu erzeugen, von denen wir hoffen, dass sie diese neue Richtung beleuchten kann. Codes werden nach Annahme freigegeben.

Multimodale Kette des Gedankenkettens in Sprachmodellen

Große Sprachmodelle (LLMs) haben eine beeindruckende Leistung für komplexes Denken gezeigt, indem sie die Kette des Gedächtnisses (COT) nutzten, die dazu veranlasst werden, Zwischenketten als Grund zur Beantwortung der Antwort zu erzeugen. Bestehende COT -Studien haben sich jedoch auf die Sprachmodalität konzentriert. Wir schlagen multimodale Wickelschläge vor, das Sprach- (Text-) und Visionsmodalitäten (Bilder) in einen zweistufigen Rahmen einbezieht, der die Erzeugung der Begründung unterscheidet und Inferenz beantwortet. Auf diese Weise kann Antwort Inferenz besser generierte Rationals nutzen, die auf multimodalen Informationen basieren. Mit multimodalem Kost übertrifft unser Modell unter 1 Milliarde Parametern die vorherigen hochmodernen LLM (GPT-3,5) um 16 Prozentpunkte (75,17%-> 91,68% Genauigkeit) für die ScienceQA-Benchmark und übertrifft sogar die menschliche Leistung. Code ist in dieser HTTPS -URL öffentlich verfügbar.

LAMA 2: Open Foundation und Feinabstimmung Chat-Modelle
Unilm: groß angelegte selbstüberwachende Vorausbildung über Aufgaben, Sprachen und Modalitäten hinweg
Unverschämt große neuronale Netze: Die spärlich gestaltete Mischung der Expertenschicht
GLAM: Effiziente Skalierung von Sprachmodellen mit Expertenmischungen
Skalierung von Sicht mit spärlicher Mischung von Experten
Textklassifizierung mit niedriger Ressourcen: Eine parameterfreie Klassifizierungsmethode mit Kompressoren
AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model
Goat: Fine-tuned LLaMA Outperforms GPT-4 on Arithmetic Tasks
Textbooks Are All You Need
Model Card and Evaluations for Claude Models
Full Parameter Fine-tuning for Large Language Models with Limited Resources
Augmenting Language Models with Long-Term Memory
Unifying Large Language Models and Knowledge Graphs: A Roadmap
Knowledge Distillation of Large Language Models
SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression
QLoRA: Efficient Finetuning of Quantized LLMs
LIMA: Less Is More for Alignment
Orca: Progressive Learning from Complex Explanation Traces of GPT-4
RWKV: Reinventing RNNs for the Transformer Era
Dr. LLaMA: Improving Small Language Models Through Generative Data Augmentation
The FLAN Instruction Tuning Repository
Phoenix: Democratizing ChatGPT across Languages
Long Sequence Modeling with XGen: A 7B LLM Trained on 8K Input Sequence Length
RedPajama-INCITE
China's Baidu claims its Ernie Bot beats ChatGPT on key tests as AI race heats up
BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
LTM-1: an LLM with a 5,000,000 token context window
Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM
StarCoder: may the source be with you!
Cross-lingual Language Model Pretraining
Language Is Not All You Need: Aligning Perception with Language Models
Tackling multiple tasks with a single visual language model
Large Language Models are Zero-Shot Reasoners
Larger language models do in-context learning differently
GPT Understands, Too
P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks
Do Prompt-Based Models Really Understand the Meaning of their Prompts?
∞-former: Infinite Memory Transformer
Improving language models by retrieving from trillions of tokens
Augmented Language Models: a Survey
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
Structure and Content-Guided Video Synthesis with Diffusion Models
MusicLM: Generating Music From Text
InstructGPT : Training language models to follow instructions with human feedback
BioGPT: Generative Pre-trained Transformer for Biomedical Text Generation and Mining
Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
Multimodal Chain-of-Thought Reasoning in Language Models
Constitutional AI: Harmlessness from AI Feedback
Provable Copyright Protection for Generative Models
What learning algorithm is in-context learning? Investigations with linear models
A Path Towards Autonomous Machine Intelligence
PAL: Program-aided Language Models
Toolformer: Language Models Can Teach Themselves to Use Tools
LLaMA: Open and Efficient Foundation Language Models
Improving alignment of dialogue agents via targeted human judgements
Training Compute-Optimal Large Language Models
LLaMA-based ChatGPT training, ChatLLaMA
RLHF: Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
BaGuaLu: Targeting Brain Scale Pretrained Models with over 37 Million Cores
LLaMA-7B, LLAMA Up-data, LLaMA: INT8 edition, UForm
Flamingo: a Visual Language Model for Few-Shot Learning, Blog
Multimodal Chain-of-Thought Reasoning in Language Models
How to use UForm
How to create KoChatLLaMA
Competition-Level Code Generation with AlphaCode
Scaling Language Models: Methods, Analysis & Insights from Training Gopher
GPU and learning method required for KoChatLlaMA fine-tuning
Advantages and Problems of UForm
GPT-4 is coming next week – and it will be multimodal, says Microsoft Germany
MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition and Robust Speech-to-Text Translation
Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages
PaLM-E: An Embodied Multimodal Language Model
Tightly-Integrated Generative Encoder-Decoder Representation
Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
PaLM: Scaling Language Modeling with Pathways
SpikeGPT: Generative Pre-trained Language Model with Spiking Neural Networks
LoRA: Low-Rank Adaptation of Large Language Models
Language Models are Few-Shot Learners
Low-rank Adaptation for Fast Text-to-Image Diffusion Fine-tuning
Improving language models by retrieving from trillions of tokens
FLAN: Finetuned Language Models Are Zero-Shot Learners
T0: Multitask Prompted Training Enables Zero-Shot Task Generalization
The Flan Collection: Designing Data and Methods for Effective Instruction Tuning
The Wisdom of Hindsight Makes Language Models Better Instruction Followers
Exploring the Benefits of Training Expert Language Models over Instruction Tuning
Unsupervised Imputation of Non-ignorably Missing Data Using Importance-Weighted Autoencoders
The Power of Scale for Parameter-Efficient Prompt Tuning
Constitutional AI: Harmlessness from AI Feedback
Deep reinforcement learning from human preferences
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
Large Language Models with Controllable Working Memory
Do Prompt-Based Models Really Understand the Meaning of their Prompts?
Muse: Text-To-Image Generation via Masked Generative Transformers
Structure and Content-Guided Video Synthesis with Diffusion Models
Generative Pretraining from Pixels
A hunt for the Snark: Annotator Diversity in Data Practices
Accurate global machine learning force fields for molecules with hundreds of atoms
Algorithms with More Granular Differential Privacy Guarantees
Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly Types
Are we cobblers without shoes? Making Computer Science data FAIR
Code Generation for In-Place Stencils
Creating, Calibrating, and Validating Large-Scale Microscopic Traffic Simulation
Increasing Impact of Mobile Health Programs: SAHELI for Maternal and Child Care
Designing Responsible AI: Adaptations of UX Practice to Meet Responsible AI Challenges
Developer Productivity for Humans: A Human-Centered Approach to Developer Productivity
Development of a Machine Learning Model for Sonographic Assessment of Gestational Age
Drug Design on Quantum Computers
Estimates of broadband upwelling irradiance from GOES-16 ABI
Information Processing and Management
Flake Aware Culprit Finding
Flexible Budgets in Restless Bandits: A Primal-Dual Algorithm for Efficient Budget Allocation
Helpful Neighbors: Leveraging Neighbors in Geographic Feature Pronunciation
High-Performance GPU-to-CPU Transpilation and Optimization via High-Level Parallel Constructs
Helpful Neighbors: Leveraging Neighbors in Geographic Feature Pronunciation
Infrastructuring Care: How Trans and Non-Binary People Meet Health and Well-Being Needs through Technology
KwikBucks: Correlation Clustering with Cheap-Weak and Expensive-Strong Signals
Learning to Bid in Contextual First Price Auctions
Machine Learning for Healthcare: A Bibliometric Study of Contributions from Africa
Scalable Decision-Focused Learning in Restless Multi-Armed Bandits with Application to Maternal and Child Health
Robust Planning over Restless Groups: Engagement Interventions for a Large-Scale Maternal Telehealth Program
Recitation-Augmented Language Models
RL4ReAl: Reinforcement Learning for Register Allocation
Quantum Simulation of Exact Electron Dynamics can be more Efficient than Classical Mean-Field Methods
Quantum simulation of exact electron dynamics can be more efficient than classical mean-field methods
Propeller: A Profile Guided, Relinking Optimizer for Warehouse-Scale Applications
Deepmind: Improving language models by retrieving from trillions of tokens
Deepmind: Building safer dialogue agents
Deepmind: Competitive programming with AlphaCode
Deepmind: Mastering Stratego, the classic game of imperfect information
Deepmind: DeepMind's latest research at NeurIPS 2022
Deepmind: Building interactive agents in video game worlds
Deepmind: Discovering novel algorithms with AlphaTensor
Deepmind: AlphaFold reveals the structure of the protein universe
Deepmind: Exploring the beauty of pure mathematics in novel ways
Deepmind: Nowcasting the next hour of rain
Deepmind: Putting the power of AlphaFold into the world's hands
Google Research: Deciphering clinical abbreviations with privacy protecting ML
Google Research: Google Research, 2022 & beyond: Language, vision and generative models
Google Research: Google Research, 2022 & beyond: Responsible AI
Google Research: Learning with queried hints
Google Research: Open Source Vizier: Towards reliable and flexible hyperparameter and blackbox optimization
Google Research: Google Research, 2022 & beyond: ML & computer systems
Google Research: Real-time tracking of wildfire boundaries using satellite imagery
Google Research: Breaching the 2 LMP Approximation Barrier for Facility Location with Applications to k-Median
Google Research: Chimane-Mosetén
Google Research: Differentially Private All-Pairs Shortest Path Distances: Improved Algorithms and Lower Bounds
Google Research: Differentially Private Fair Division
Google Research: DiffQG: Generating Questions on Paired Sentences
Google Research: Assessment of Security Defense of Native Programs Against Software Faults
Google Research: Adaptive mixing of auxiliary losses in supervised learning
OpenAI: Multimodal Neurons in Artificial Neural Networks
OpenAI: DALL·E: Creating Images from Text
OpenAI: CLIP: Connecting Text and Images
OpenAI: Image GPT
OpenAI: Jukebox
OpenAI: Solving Rubik's Cube with a Robot Hand
OpenAI: Multimodal Neurons in Artificial Neural Networks
OpenAI: CLIP: Connecting Text and Images
OpenAI: Image GPT
OpenAI: MuseNet
OpenAI: Emergent Tool Use from Multi-Agent Interaction

before 2023

[2013/01] Efficient Estimation of Word Representations in Vector Space
[2014/12] Dependency-Based Word Embeddings
[2015/07] Neural Machine Translation of Rare Words with Subword Units
[2014/07] GloVe: Global Vectors for Word Representation : GloVe
[2016/06] Siamese CBOW: Optimizing Word Embeddings for Sentence Representations : Siamese CBOW
[2016/07] Enriching Word Vectors with Subword Information : fastText
[2014/09] Sequence to Sequence Learningwith Neural Networks : seq2seq
[2017/07] Attention Is All You Need : Transformer
[2017/08] Learned in Translation: Contextualized Word Vectors : CoVe
[2018/01] Universal Language Model Fine-tuning for Text Classification : ULMFIT
[2018/02] Deep contextualized word representations : ELMo
[2018/06] Improving Language Understanding by Generative Pre-Training : GPT-1
[2018/10] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding : BERT
[2019/02] Language Models are Unsupervised Multitask Learners : GPT-2
[2019/04] Language Models with Transformers
[2019/08] Neural Text Generation with Unlikelihood Training
[2019/01] Cross-lingual Language Model Pretraining XLM
[2019/01] Multi-Task Deep Neural Networks for Natural Language Understanding : MT-DNN
[2019/01] Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context : Transformer-XL
[2019/06] XLNet: Generalized Autoregressive Pretraining for Language Understanding : XLNet
[2019/04] The Curious Case of Neural Text Degeneration
[2019/09] Fine-Tuning Language Models from Human Preferences
[2019/01] BioBERT: a pre-trained biomedical language representation model for biomedical text mining : BioBERT
[2019/03] SciBERT: A Pretrained Language Model for Scientific Text : SciBERT
[2019/04] ClinicalBERT: Modeling Clinical Notes and Predicting Hospital Readmission : ClinicalBERT
[2019/06] HIBERT: Document Level Pre-training of Hierarchical Bidirectional Transformers for Document Summarization : HIBERT
[2019/07] SpanBERT: Improving Pre-training by Representing and Predicting Spans : SpanBERT
[2019/04] Publicly Available Clinical BERT Embeddings
[2019/08] Pre-Training with Whole Word Masking for Chinese BERT
[2019/07] Is BERT Really Robust? A Strong Baseline for Natural Language Attack on Text Classification and Entailment
[2019/07] R-Transformer: Recurrent Neural Network Enhanced Transformer : R-Transformer
[2019/09] FREELB: ENHANCED ADVERSARIAL TRAINING FOR LANGUAGE UNDERSTANDING : FREELB
[2019/09] Mixup Inference: Better Exploiting Mixup to Defend Adversarial Attacks
[2019/10] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer : T5
[2018/07] Subword-level Word Vector Representations for Korean
[2019/08] Zero-shot Word Sense Disambiguation using Sense Definition Embeddings
[2019/06] Bridging the Gap between Training and Inference for Neural Machine Translation
[2019/06] Emotion-Cause Pair Extraction: A New Task to Emotion Analysis in Texts
[2019/07] A Simple Theoretical Model of Importance for Summarization
[2019/05] Transferable Multi-Domain State Generator for Task-Oriented Dialogue Systems
[2019/07] We need to talk about standard splits
[2019/07] ERNIE 2.0: A Continual Pre-training Framework for Language Understanding : ERNIE 2.0
[2019/05] SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems : SuperGLUE
[2020/01] Towards a Human-like Open-Domain Chatbot + Google AI Blog
[2020/03] ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators : ELECTRA
[2019/04] Mask-Predict: Parallel Decoding of Conditional Masked Language Models : Mask-Predict
[2020/01] Reformer: The Efficient Transformer : Reformer
[2020/04] Longformer: The Long-Document Transformer : Longformer
[2019/11] DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation : DialoGPT
[2020/01] Towards a Human-like Open-Domain Chatbot
[2020/04] You Impress Me: Dialogue Generation via Mutual Persona Perception
[2020/04] Recipes for building an open-domain chatbot
[2020/04] ToD-BERT: Pre-trained Natural Language Understanding for Task-Oriented Dialogues : ToD-BERT
[2020/04] SOLOIST: Few-shot Task-Oriented Dialog with A Single Pre-trained Auto-regressive Model : SOLOIST
[2020/05] A Simple Language Model for Task-Oriented Dialogue
[2019/07] ReCoSa: Detecting the Relevant Contexts with Self-Attention for Multi-turn Dialogue Generation : ReCoSa
[2020/04] FastBERT: a Self-distilling BERT with Adaptive Inference Time : FastBERT
[2020/01] PoWER-BERT: Accelerating BERT inference for Classification Tasks : PoWER-BERT
[2019/10] DistillBERT, a distilled version of BERT: smaller, faster, cheaper and lighter : DistillBERT
[2019/10] TinyBERT: Distilling BERT for Natural Language Understanding : TinyBERT
[2019/11] Not Enough Data? Deep Learning to the Rescue!
[2018/12] Conditional BERT Contextual Augmentation
[2020/03] Data Augmentation using Pre-trained Transformer Models
[2020/04] FLAT: Chinese NER Using Flat-Lattice Transformer : FLAT
[2019/12] Big Transfer (BiT): General Visual Representation Learning : BiT
[2019/04] ERNIE: Enhanced Representation through Knowledge Integration : ERNIE
[2019/07] ERNIE 2.0: A Continual Pre-training Framework for Language Understanding : ERNIE 2.0
[2020/06] ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph : ERNIE-ViL
[2020/12] ERNIE-Doc: A Retrospective Long-Document Modeling Transformer : ERNIE-Doc
[2021/07] ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation : ERNIE 3.0
[2022/10] Beyond English-Centric Bitexts for Better Multilingual Language Representation Learning
[2017/03] Distilling Task-Specific Knowledge from BERT into Simple Neural Networks
[2020/10] DiPair: Fast and Accurate Distillation for Trillion-Scale Text Matching and Pair Modeling : DiPair
[2021/08] Distilling Transformers for Neural Cross-Domain Search
[2020/06] DeBERTa: Decoding-enhanced BERT with Disentangled Attention : DeBERTa
[2020/11] VEGA: Towards an End-to-End Configurable AutoML Pipeline : VEGA
[2020/12] FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding : FILTER
[2019/12] StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding : StructBERT
[2019/04] Improving Multi-Task Deep Neural Networks via Knowledge Distillation for Natural Language Understanding : MT-DNN
[2021/05] Comparing Kullback-Leibler Divergence and Mean Squared Error Loss in Knowledge Distillation

중지

MLLMArxivTalk

최신 MLLM 관련 스터디. 기본 오후에 진행. 논문, 강의, 코드, 뉴스, 블로그 등 다양한 자료로 학습.

MLLM, LLM, NLG, Dialogue, Reinforcement learning, Distillation, Efficient, Sentence similarity, multiple tasks, multimodal, Stable diffusion, TTS, Text-To-Video, All-To-All, 우주, 생명, 지능, 윤리, 규제, 법, 노화, 의학, 투자, 개발, 인프라, 디자인, 경영, ETC...

유망 스타트업 C레벨, 국내외 탑티어 연구자, 국내외 탑티어 대학, 대학원 재학생과 졸업생, 석학, 교수 등 A급 인재들이 최신 논문, 강의 등 스터디 및 프로젝트 진행.

기본 매주 수요일 오후 7시반. 사전 학습 없이 논문 읽기 최대 20분, 토론 최대 40분. 한 번에 1 ~ 10개 논문, 강의 등 진행. 지금까지는 항상 3개. 주제 논문 선정은 자유. 탑티어 학회 논문 및 프로젝트 제작 예정.

주말을 포함하여, 거의 매일 추가 스터디 존재. 흥미로운 주제거나 참여 되는 날만 중간에 들어와서 중간에 나가도 무관. 모든 규칙은 협의 가능. 오프라인 모임도 예정. 자율 참여.

스터디 규칙

영어만 사용은 금지. 한국어 중심 사용. 특수 용어는 영어 사용.
1주일에 논문 2개 이상 스터디. 되는 사람은 10개 이상.
3분에서 20분 현장에서 논문 읽기. 5분에서 30분 토론.
1시간 스터디 시, 바로 나가도 됨. 원할 때 10분 이하 참여도 무관. 자유롭게 진행. 2시간 매일도 가능.
각자 더 뛰어난 게 있다는 것을 인지. 다들 대단한 분들이니 질문 많이 하고, 정보 공유 자주.
본인이 하기로 한 일만은 수행. 한다고 말하고, 안 하는 것은 민폐다.
기본적으로 녹화 후 내부 공유.
정보를 혼자 알게 쓰지 말고, 다 같이 알게 말하기.
개인 사정으로 스터디 탈퇴 시, 자기소개에 인사 작성.
여러 기관 좋은 규칙 붙여넣기.
팀에 도움이 된다고 판단하면, 위 규칙을 모두 무시하고 행동.
추가.

Basic knowledge

Mathematik	maschinelles Lernen	Transformator	Hugging Face

mathematics for machine learning	Pattern Recognition and Machine Learning	Getting Started with Google BERT	Verarbeitung natürlicher Sprache mit Transformatoren