Während sich die Welt noch erholt, hat die Forschung ihr frenetisches Tempo nicht verlangsamt, insbesondere im Bereich der künstlichen Intelligenz. Darüber hinaus wurden in diesem Jahr viele wichtige Aspekte hervorgehoben, wie die ethischen Aspekte, wichtige Vorurteile, Governance, Transparenz und vieles mehr. Künstliche Intelligenz und unser Verständnis des menschlichen Gehirns und seiner Verbindung zur KI entwickeln sich ständig und zeigen vielversprechende Anwendungen, die in naher Zukunft die Qualität unseres Lebens verbessern. Trotzdem sollten wir vorsichtig sein, mit welcher Technologie wir uns bewerben.
"Die Wissenschaft kann uns nicht sagen, was wir tun sollten, nur was wir tun können."
- Jean-Paul Sartre, Sein und Nichts
Hier finden Sie eine kuratierte Liste der neuesten Durchbrüche in AI und Data Science By erschienenes Datum mit einer klaren Videoerklärung, Link zu einem detaillierteren Artikel und Code (falls zutreffend). Genieße die Lektüre!
Die vollständige Verweise auf jedes Papier ist am Ende dieses Repositorys aufgeführt. Sterne dieses Repository, um auf dem Laufenden zu bleiben und für das nächste Jahr dran zu bleiben! Euen
Betreuer: Louisfb01, auch auf YouTube und als Podcaster aktiv, wenn Sie mehr über KI sehen/erfahren möchten!
Abonnieren Sie meinen Newsletter - die neuesten Updates in AI, die jede Woche erklärt hat.
Fühlen Sie sich frei, mir ein interessantes Papier zu senden, das ich möglicherweise verpasst habe, um dieses Repository hinzuzufügen.
Tag auf Twitter @whats_ai oder linkedIn @Louis (was ist AI) Bouchard, wenn Sie die Liste teilen! Und chatten Sie mit uns in unserer Gemeinschaft der Lernen KI zusammen!
? Wenn Sie meine Arbeit unterstützen möchten , können Sie überprüfen, ob Sie dieses Repository sponsern oder mich auf Patreon unterstützen.
Sie haben diese Situation mit Sicherheit einmal erlebt: Sie machen ein tolles Bild mit Ihrem Freund, und jemand fotobiert hinter Ihnen und ruiniert Ihren zukünftigen Instagram -Beitrag. Nun, das ist kein Problem mehr. Entweder ist es eine Person oder ein Mülleimer, das Sie vergessen haben zu entfernen, bevor Sie Ihr Selfie aufnehmen, das Ihr Bild ruiniert. Diese KI entfernen einfach automatisch das unerwünschte Objekt oder die Person im Bild und speichern Ihren Beitrag. Es ist wie ein professioneller Photoshop -Designer in Ihrer Tasche und mit einem einfachen Klick!
Diese Aufgabe, einen Teil eines Bildes zu beseitigen und es durch das zu ersetzen, was dahinter erscheinen sollte, wurde von vielen AI -Forschern seit langem angegangen. Es heißt Image Inpainting und ist äußerst herausfordernd ...
Sie haben mit Sicherheit Filme wie der jüngste Captain Marvel oder Gemini Man gesehen, in dem Samuel L Jackson und Will Smith so aussehen, als wären sie viel jünger. Dies erfordert Hunderte, wenn nicht Tausende von Stunden Arbeit von Fachleuten, die die Szenen, in denen er erschien, manuell bearbeitet. Stattdessen können Sie eine einfache KI verwenden und es innerhalb weniger Minuten tun. In vielen Techniken können Sie ein Lächeln hinzufügen und Sie jünger oder älter aussehen und mithilfe von AI-basierten Algorithmen automatisch aussehen. Es heißt AI-basierte Gesichtsmanipulationen in Videos und hier ist der aktuelle Stand der Technik im Jahr 2022!
Neuronales Rendering. Das neuronale Rendering ist die Fähigkeit, ein fotorealistisches Modell im Weltraum zu generieren, aus Bildern des Objekts, der Person oder der Szene von Interesse. In diesem Fall hätten Sie eine Handvoll Bilder dieser Skulptur und bitten die Maschine, zu verstehen, wie das Objekt in diesen Bildern im Raum aussehen soll. Sie bitten im Grunde eine Maschine, Physik und Formen aus den Bildern zu verstehen. Dies ist für uns recht einfach, da wir nur die reale Welt und die Tiefen kennen, aber es ist eine ganz andere Herausforderung für eine Maschine, die nur Pixel sieht. Es ist großartig, dass das generierte Modell mit realistischen Formen genau aussieht, aber wie ist es, wie es sich in die neue Szene einfügt? Und was ist, wenn die Beleuchtungsbedingungen in den aufgenommenen Bildern unterschiedlich sind und das erzeugte Modell je nach Winkel, den Sie es betrachten, anders aussieht? Dies scheint uns automatisch seltsam und unrealistisch zu sein. Dies sind die Herausforderungen, die Snapchat und die University of Southern California in dieser neuen Forschung angegriffen haben.
Wir haben Image Inpainting gesehen, das darauf abzielt, ein unerwünschtes Objekt aus einem Bild zu entfernen. Die maschinell lernbasierten Techniken entfernen nicht einfach die Objekte, sondern verstehen auch das Bild und füllen die fehlenden Teile des Bildes mit dem, wie der Hintergrund aussehen sollte. Die jüngsten Fortschritte sind wie die Ergebnisse unglaublich, und diese Inpacking -Aufgabe kann für viele Anwendungen wie Anzeigen oder Verbesserung Ihres zukünftigen Instagram -Beitrags sehr nützlich sein. Wir haben auch eine noch schwierigere Aufgabe behandelt: Video -Inpacking, bei denen der gleiche Prozess auf Videos angewendet wird, um Objekte oder Personen zu entfernen.
Die Herausforderung mit Videos besteht darin, dass es ohne fehlerhafte Artefakte von Frame zu Rahmen konsistent bleibt. Aber was passiert nun, wenn wir eine Person korrekt aus einem Film entfernen und der Sound immer noch unverändert ist? Nun, wir können einen Geist hören und alle unsere Arbeiten ruinieren.
Hier kommt eine Aufgabe, die ich nie auf meinem Kanal behandelt habe, ins Spiel: Speech Inpainting. Sie haben es richtig gehört, Forscher von Google haben gerade ein Papier veröffentlicht, das sich auf die Sprache einleitet, und wie wir sehen werden, sind die Ergebnisse ziemlich beeindruckend. Okay, wir könnten lieber die Ergebnisse hören, aber Sie bekommen den Punkt. Es kann Ihre Grammatik, Ihre Aussprache korrigieren oder sogar Hintergrundgeräusche entfernen. Alles, was ich auf jeden Fall weiterarbeiten muss, oder ... verwenden Sie einfach ihr neues Modell… Hören Sie sich die Beispiele in meinem Video an!
Haben Sie auch alte Bilder von sich selbst oder nahen, die nicht gut altern oder Sie oder Ihre Eltern gemacht haben, bevor wir hochwertige Bilder produzieren konnten? Ich tue es und ich hatte das Gefühl, dass diese Erinnerungen für immer beschädigt wurden. Junge, war ich falsch!
Dieses neue und komplett kostenlose KI -Modell kann die meisten Ihrer alten Bilder in Sekundenbruchteilen reparieren. Es funktioniert auch bei sehr niedrigen oder qualitativ hochwertigen Eingaben gut, was in der Regel eine große Herausforderung darstellt.
Die Zeitung dieser Woche, die sich in Richtung der reinen Blind-Gesichts-Wiederherstellung mit generativen Gesichtsbehörden vorbereitet hat, überträgt die Fotorestaurationsaufgabe mit hervorragenden Ergebnissen. Was noch cooler ist, ist, dass Sie es selbst und auf Ihre bevorzugte Weise ausprobieren können. Sie haben ihren Code Open-Sourced und haben eine Demo- und Online-Bewerbungen erstellt, die Sie jetzt ausprobieren können. Wenn die Ergebnisse, die Sie oben gesehen haben, nicht genug überzeugt sind, schauen Sie sich das Video an und lassen Sie mich wissen, was Sie in den Kommentaren denken, ich weiß, dass es sich um den Kopf sprengt!
Wie sehen autonome Fahrzeuge?
Sie haben wahrscheinlich von Lidar -Sensoren oder anderen seltsamen Kameras gehört, die sie verwenden. Aber wie funktionieren sie, wie können sie die Welt sehen und was sehen sie genau im Vergleich zu uns? Zu verstehen, wie sie funktionieren, ist wesentlich, wenn wir sie auf die Straße bringen möchten, vor allem, wenn Sie in der Regierung arbeiten oder die nächsten Vorschriften erstellen. Aber auch als Kunde dieser Dienste.
Wir haben zuvor behandelt, wie Tesla Autopilot sieht und funktioniert, unterscheiden sich jedoch von herkömmlichen autonomen Fahrzeugen. Tesla verwendet nur Kameras, um die Welt zu verstehen, während die meisten wie Waymo reguläre Kameras und 3D -Lidar -Sensoren verwenden. Diese Lidar -Sensoren sind ziemlich einfach zu verstehen: Sie werden keine Bilder wie normale Kameras, sondern 3D -Punktwolken produzieren. LIDAR -Kameras messen den Abstand zwischen Objekten und berechnen die Reisezeit des Impulslasers, die sie mit dem Objekt projizieren.
Wie können wir diese Informationen effizient kombinieren und das Fahrzeug sie verstehen lassen? Und was sieht das Fahrzeug am Ende? Nur Punkte überall? Reicht es aus, um auf unseren Straßen zu fahren? Wir werden dies mit einem neuen Forschungspapier von Waymo und Google Research prüfen ...
Als ob das Aufnehmen eines Bildes keine herausfordernde technologische Fähigkeit wäre, tun wir jetzt das Gegenteil: Modellierung der Welt aus Bildern. Ich habe erstaunliche KI-basierte Modelle mit Bildern behandelt, die Bilder aufnehmen und sie in hochwertige Szenen verwandeln könnten. Eine herausfordernde Aufgabe, die darin besteht, ein paar Bilder in der zweidimensionalen Bildwelt aufzunehmen, um zu erstellen, wie das Objekt oder die Person in der realen Welt aussehen würde.
Machen Sie ein paar Bilder und haben Sie sofort ein realistisches Modell, das Sie in Ihr Produkt einfügen können. Wie cool ist das ?!
Die Ergebnisse haben sich auf das erste Modell, das I im Jahr 2020 namens Nerf behandelt, dramatisch verbessert. Und bei dieser Verbesserung geht es nicht nur um die Qualität der Ergebnisse. Nvidia hat es noch besser gemacht.
Nicht nur, dass die Qualität vergleichbar ist, wenn nicht sogar besser, sondern mehr als 1'000 -mal schneller mit weniger als zwei Jahren Forschung.
Letztes Jahr habe ich Dall · e geteilt, ein erstaunliches Modell von OpenAI, das Bilder aus einer Texteingabe mit unglaublichen Ergebnissen generieren kann. Jetzt ist Zeit für seinen großen Bruder, Dall · e 2. Und Sie werden die Fortschritte in einem einzigen Jahr nicht glauben! Dall · e 2 ist nicht nur besser darin, fotorealistische Bilder aus Text zu erzeugen. Die Ergebnisse sind die vierfache Auflösung!
Als ob es nicht schon beeindruckend genug wäre, lernte das jüngste Modell eine neue Fähigkeit; Bildinstrument.
Dall · e könnte Bilder aus Texteingaben erzeugen.
Dall · e 2 kann es besser machen, aber es hört hier nicht auf. Es kann diese Bilder auch bearbeiten und sie noch besser aussehen lassen! Oder fügen Sie einfach eine Funktion hinzu, die Sie wie einige Flamingos im Hintergrund möchten.
Klingt interessant? Erfahren Sie mehr im Video oder lesen Sie weiter unten!
Dieses neue Modell von Google Research und Tel-Aviv University ist unglaublich. Sie können es als eine sehr, sehr mächtige Deepfake sehen, die alles kann.
Machen Sie hundert Bilder von jeder Person und Sie haben ihre Persona codiert, um realistisches Bild zu reparieren, zu bearbeiten oder zu erstellen, das Sie möchten.
Dies ist sowohl erstaunlich als auch beängstigend, wenn Sie mich fragen, besonders wenn Sie sich die Ergebnisse ansehen. Sehen Sie sich das Video an, um mehr Ergebnisse zu sehen und zu verstehen, wie das Modell funktioniert!
Weitere KI -Inhalte finden Sie in Form von Interviews mit Experten auf diesem Gebiet den What's AI -Podcast! Ein eingeladener KI-Experte und ich werden bestimmte Themen, Unterfelder und Rollen mit KI abdecken, um Wissen von den Menschen zu unterrichten und zu teilen, die hart gearbeitet haben, um es zu sammeln.
Wir haben alle von GPT-3 gehört und haben eine klare Vorstellung von seinen Fähigkeiten. Sie haben mit Sicherheit einige Anwendungen gesehen, die aufgrund dieses Modells ausschließlich geboren wurden, von denen ich einige in einem früheren Video über das Modell behandelt habe. GPT-3 ist ein von OpenAI entwickelter Modell, auf das Sie über eine kostenpflichtige API zugreifen können, aber keinen Zugriff auf das Modell selbst haben.
Was GPT-3 so stark macht, ist sowohl seine Architektur als auch seine Größe. Es hat 175 Milliarden Parameter. Die doppelt so viele Neuronen, die wir in unserem Gehirn haben! Dieses immense Netzwerk war im gesamten Internet ziemlich geschult, um zu verstehen, wie wir Text schreiben, austauschen und verstehen. Diese Woche hat Meta einen großen Schritt nach vorne für die Community gemacht. Sie haben gerade ein Modell veröffentlicht, das genauso mächtig ist, wenn nicht sogar mehr und hat es völlig offen geöffnet.
Blobgan ermöglicht eine unwirkliche Manipulation von Bildern, die super leicht kontrollieren, einfache Blobs. Alle diese kleinen Blobs stellen ein Objekt dar, und Sie können sie herum bewegen oder größer, kleiner oder sogar entfernen, und es hat den gleichen Effekt auf das Objekt, das es im Bild darstellt. Das ist so cool!
Wie die Autoren in ihren Ergebnissen geteilt haben, können Sie sogar neue Bilder erstellen, indem Sie Blobs duplizieren und unsichtbare Bilder im Datensatz wie ein Raum mit zwei Deckenventilatoren erstellen! Korrigieren Sie mich, wenn ich mich irre, aber ich glaube, es ist eines der, wenn nicht sogar das erste Papier, das die Änderung von Bildern so einfach wie das Bewegen von Blobs und die Ermöglichung von Änderungen, die im Trainingsdatensatz nicht gesehen wurden, zu ermöglichen.
Und Sie können tatsächlich mit diesem im Vergleich zu einigen Unternehmen spielen, die wir alle kennen! Sie teilten ihren Code öffentlich und eine Colab -Demo, die Sie sofort versuchen können. Noch aufregender ist, wie Blobgan funktioniert. Erfahren Sie mehr im Video!
Gato aus DeepMind wurde gerade veröffentlicht! Es ist ein einzelner Transformator, der Atari -Spiele spielen kann, Bildunterschriftenbilder, mit Menschen chatten, einen echten Roboterarm kontrollieren und vieles mehr! In der Tat wird es einmal trainiert und verwendet die gleichen Gewichte, um all diese Aufgaben zu erfüllen. Und nach DeepMind ist dies nicht nur ein Transformator, sondern auch ein Agent. Dies passiert, wenn Sie Transformatoren mit Fortschritten bei Multi-Task-Verstärkungslernagenten mischen.
Gato ist ein multimodaler Agent. Dies bedeutet, dass es Bildunterschriften für Bilder erstellen oder Fragen als Chatbot beantworten kann. Sie würden sagen, dass GPT-3 das bereits tun kann, aber Gato kann mehr tun ... die Multi-Modalität beruht auf der Tatsache, dass GATO auch Atari-Spiele auf menschlicher Ebene spielen oder sogar reale Aufgaben wie die Kontrolle von Roboterarmen an erledigen kann Bewegen Sie Objekte genau. Es versteht Wörter, Bilder und sogar Physik ...
Wenn Sie dachten, Dall-E 2 hätte großartige Ergebnisse, warten Sie, bis Sie sehen, was dieses neue Modell von Google Brain tun kann.
Dalle-e ist erstaunlich, aber oft fehlt Realismus, und das hat das Team mit diesem neuen Modell namens Imageen angegriffen.
Sie teilen viele Ergebnisse auf ihrer Projektseite sowie einen Benchmark, den sie zum Vergleich von Text-zu-Image-Modellen vorgestellt haben, bei denen sie Dall-E 2 eindeutig übertreffen, und frühere Ansätze zur Bildgenerierung. Erfahren Sie mehr im Video ...
Dalle Mini ist unglaublich - und Sie können es benutzen!
Ich bin sicher, Sie haben in den letzten Tagen Bilder wie die in Ihrem Twitter -Feed gesehen. Wenn Sie sich gefragt haben, was sie waren, sind es Bilder, die von einer KI namens Dall · e mini generiert wurden. Wenn Sie diese noch nie gesehen haben, müssen Sie sich dieses Video ansehen, weil Sie es verpassen. Wenn Sie sich fragen, wie dies möglich ist, sind Sie auf dem perfekten Video und kennen die Antwort in weniger als fünf Minuten.
Dalle Mini ist eine kostenlose Open-Source-KI, die erstaunliche Bilder von Texteingaben erzeugt.
Das jüngste Modell von Meta Ai namens "Keine Sprache zurückgelassen" macht genau das: Übersetzt über 200 verschiedene Sprachen mit hochmoderner Qualität. Ein einzelnes Modell kann 200 Sprachen bewältigen. Wie unglaublich ist das?
Wir finden es schwierig, großartige Ergebnisse ausschließlich auf Englisch zu erzielen, während Meta 200 verschiedene Sprachen mit demselben Modell und einige der kompliziertesten und weniger dargestellten, mit denen auch Google Kämpfe übersetzt ...
Sie rekonstruieren Klang mit Kameras und einem Laserstrahl auf jeder vibrierenden Oberfläche, sodass sie Musikinstrumente isolieren, sich auf einen bestimmten Lautsprecher konzentrieren, Umgebungsgeräusche und viele weitere erstaunliche Anwendungen entfernen.
Make-a-Szene ist nicht nur ein weiterer Dalle. Das Ziel dieses neuen Modells ist es nicht darin, Benutzern zu ermöglichen, zufällige Bilder zu generieren, die die Texteingabeaufforderung für Dalle erstellen - was wirklich cool ist -, aber die Benutzersteuerung in den Generationen einschränkt.
Stattdessen wollte Meta den kreativen Ausdruck vorantreiben und diesen Text-zu-Im-Im-Im-Im-Im--Daten-Trend mit früheren Sketch-zu-Image-Modellen verschmelzen, was zu „Make-a-Szene“ führte: eine fantastische Mischung aus Text- und Sketch-konditionierte Bildgenerierung.
Erstellen Sie deformierbare 3D -Modelle aus Bildern mit Banmo!
Was haben alle jüngsten super leistungsstarken Bildmodelle wie Dalle, Imageen oder Midjourney gemeinsam? Abgesehen von ihren hohen Rechenkosten, einer enormen Trainingszeit und dem gemeinsamen Hype basieren sie alle auf demselben Mechanismus: Diffusion. Diffusionsmodelle erzielten kürzlich hochmoderne Ergebnisse für die meisten Bildaufgaben, einschließlich Text-zu-Image mit Dalle, aber auch vielen anderen Bildgenerierungsaufgaben, z.
? Wenn Sie meine Arbeit unterstützen möchten , können Sie überprüfen, ob Sie dieses Repository sponsern oder mich auf Patreon unterstützen.
Die panoptische Szenengrafikgenerierung (PSG "ist eine neue Problemaufgabe, die darauf abzielt, eine umfassendere Graphendarstellung eines Bildes oder einer Szene zu generieren, basierend auf panoptischen Segmentierung als auf Begrenzungsboxen. Es kann verwendet werden, um Bilder zu verstehen und Sätze zu generieren, die beschreiben, was passiert. Dies kann die schwierigste Aufgabe für eine KI sein! Erfahren Sie weiter unten ...
Text-zu-Image-Modelle wie Dalle oder Stable Diffusion sind wirklich cool und ermöglichen es uns, fantastische Bilder mit einem einfachen Texteingang zu generieren. Aber wäre es noch cooler, ihnen ein Bild von dir zu geben und es zu einem Gemälde zu bitten? Stellen Sie sich vor, Sie könnten ein Bild von einem Objekt, einer Person oder sogar Ihrer Katze senden und das Modell bitten, es in einen anderen Stil zu verwandeln, als ob Sie sich in einen Cyborg in Ihren bevorzugten künstlerischen Stil verwandeln oder es einer neuen Szene hinzufügen können.
Wie cool wäre es, eine Version von Dalle zu haben, mit der wir unsere Bilder Photoshop verwenden können, anstatt zufällige Generationen zu haben? Einen personalisierten Dalle zu haben, während es viel einfacher macht, die Generation als „ein Bild mehr als tausend Wörter“ zu kontrollieren. Es wäre wie ein Dalle -Modell, das genauso personalisiert und süchtig ist wie der Tiktok -Algorithmus.
Nun, darauf arbeiteten Forscher der Tel Aviv University und Nvidia. Sie entwickelten einen Ansatz für die Konditionierung von Text-zu-Image-Modellen wie stabile Diffusion, die ich letzte Woche behandelt habe, mit einigen Bildern, um jedes Objekt oder jedes Konzept durch die Wörter darzustellen, die Sie entlang Ihrer Bilder senden. Verwandeln Sie das Objekt Ihrer Eingabebilder in alles, was Sie wollen!
Wir haben gesehen, wie KI Text generiert, dann Bilder generiert und zuletzt sogar kurze Videos generiert, obwohl sie noch Arbeit benötigen. Die Ergebnisse sind unglaublich, wenn Sie der Meinung sind, dass niemand tatsächlich an den Erstellungsprozess dieser Stücke beteiligt ist und nur einmal trainiert werden muss, um dann von Tausenden von Menschen wie stabile Diffusion verwendet zu werden. Verstehen diese Modelle jedoch wirklich, was sie tun? Wissen sie, was das Bild oder Video, das sie gerade produziert haben, wirklich repräsentiert? Was versteht ein solches Modell, wenn es ein solches Bild oder, noch komplexer, ein Video sieht?
Das neue Modell von Meta Ai ist ausgefallen und in einem einzigen Satz: Es generiert Videos aus Text. Es ist nicht nur in der Lage, Videos zu generieren, sondern auch die neue hochmoderne Methode, die höhere Qualität und kohärentere Videos als je zuvor erzeugt!
Haben Sie jemals von einem guten Transkriptionswerkzeug geträumt, das genau versteht, was Sie sagen, und aufschreiben? Nicht wie die automatischen YouTube -Übersetzungswerkzeuge… ich meine, sie sind gut, aber weit davon entfernt, perfekt zu sein. Probieren Sie es einfach aus und schalten Sie die Funktion für das Video ein, und Sie werden sehen, wovon ich spreche.
Zum Glück hat Openai gerade ein ziemlich mächtiges KI-Modell veröffentlicht und nur dazu geplant: Whisper.
Es versteht Dinge, die ich nicht einmal verstehen kann, kein englischer Muttersprachler (hören Sie im Video) und es funktioniert auch für die Sprachübersetzung!
Wir haben Modelle gesehen, die einen Satz aufnehmen und Bilder generieren können. Dann andere Ansätze zur Manipulation der generierten Bilder, indem Sie bestimmte Konzepte wie ein Objekt oder einen bestimmten Stil lernen.
Letzte Woche hat Meta das von mir abgedeckte Make-a-Video veröffentlicht, mit dem Sie auch ein kurzes Video aus einem Textsatz generieren können. Die Ergebnisse sind noch nicht perfekt, aber die Fortschritte, die wir seit letztem Jahr auf dem Gebiet erzielt haben, ist einfach unglaublich.
Diese Woche machen wir einen weiteren Schritt nach vorne.
Hier ist Dreamfusion, ein neues Google -Forschungsmodell, das einen Satz genug verstehen kann, um ein 3D -Modell davon zu generieren. Sie können dies als Dalle oder stabile Diffusion ansehen, jedoch in 3D.
Wenn Sie der Meinung sind, dass die aktuellen Bildgenerierungsmodelle wie Dalle oder Stable Diffusion cool sind, werden Sie einfach nicht glauben, wie unglaublich dieser ist. "Dieser eine" ist vorstellbar. Imagic nimmt ein solches diffusionsbasiertes Modell, das in der Lage ist, Text zu entnehmen und Bilder herauszufinden, und passt das Modell an, um die Bilder zu bearbeiten. Sie können ein Bild generieren und das Modell dann beibringen, es so zu bearbeiten, wie Sie es möchten.
Ediffi, das neueste Modell von Nvidia, erzeugt besser aussehende und genauere Bilder als alle früheren Ansätze wie Dalle 2 oder stabile Diffusion. Ediffi versteht besser den von Ihnen gesendeten Text und ist anpassbarer und fügt eine Funktion hinzu, die wir in einem früheren Artikel von Nvidia: The Painter Tool gesehen haben.
? Wenn Sie meine Arbeit unterstützen möchten , können Sie überprüfen, ob Sie dieses Repository sponsern oder mich auf Patreon unterstützen.
Erzeugen Sie unendliche neue Rahmen, als würden Sie in Ihr Bild fliegen!
Galactica ist ein großes Sprachmodell mit einer mit GPT-3 vergleichbaren Größe, aber auf wissenschaftliche Erkenntnisse spezialisiert. Das Modell kann Whitepapers, Bewertungen, Wikipedia -Seiten und Code schreiben. Es weiß, wie man zitiert und wie man Gleichungen schreibt. Es ist eine Art große Sache für KI und Wissenschaft.
Aus einem einzigen Video können sie die Person synthetisieren, die für so ziemlich jedes Wort oder Satz in Echtzeit mit besserer Qualität spricht. Sie können einen sprechenden Kopf nach einer Audiospur in Echtzeit animieren.
Chatgpt hat Twitter und so ziemlich das gesamte Internet übernommen, dank seiner Leistung und des Meme -Potenzials, das es bietet. Wir alle wissen, wie es der beste Weg ist, das Internet zu erobern, um Memes zu erzeugen, und so hat es funktioniert.
Da Sie zahlreiche Beispiele gesehen haben, wissen Sie möglicherweise bereits, dass Chatgpt eine KI ist, die kürzlich von OpenAI für die Öffentlichkeit veröffentlicht wurde, mit der Sie chatten können. Es wird auch als Chatbot bezeichnet, was bedeutet, dass Sie mit ihm konversendisch interagieren und eine Einzelgesprächsdiskussion imitieren können.
Was Sie vielleicht nicht wissen, ist, was es ist und wie es funktioniert ... Sehen Sie sich das Video an oder lesen Sie den Artikel oder den Blog -Beitrag unten, um mehr zu erfahren!
Egal, ob es zum Spaß in einem Snapchat -Filter, für einen Film oder sogar ein paar Falten entfernen wird, wir alle haben ein Dienstprogramm im Auge, um unser Alter in einem Bild zu ändern.
Dies erfolgt normalerweise von erfahrenen Künstlern, die Photoshop oder ein ähnliches Tool zum Bearbeiten Ihrer Bilder verwenden. Das Schlimmste, in einem Video müssen sie diese Art von manueller Bearbeitung für jeden Rahmen durchführen! Stellen Sie sich vor, wie viel Arbeit dafür erforderlich ist. Nun, hier ist eine Lösung und ein neues Problem in dieser Situation ...?
Wenn Sie mehr Papiere lesen und einen breiteren Blick haben möchten, finden Sie hier ein weiteres großartiges Repository für Sie, die sich mit 2021: 2021 abdecken: Ein Jahr voller erstaunlicher AI-Papiere- eine Bewertung und zeichnen Sie meinen wöchentlichen Newsletter an und bleiben Sie auf dem Laufenden. -Date mit neuen Veröffentlichungen in AI für 2022!
Tag auf Twitter @whats_ai oder linkedIn @Louis (was ist AI) Bouchard, wenn Sie die Liste teilen!
[1] Suvorov, R., Logacheva, E., Mashikhin, A., Remizova, A., Ashukha, A., Silvestrov, A., Kong, N., Goka, H., Park, K. und Lempitsky. V., 2022. Auflösungs-Robust Large Maske Inpainting mit Fourier-Konvolutionen. In Proceedings der IEEE/CVF Winter Conference über Anwendungen von Computer Vision (S. 2149–2159)., Https://arxiv.org/pdf/2109.07161.pdf
[2] Tzaban, R., Mokady, R., Gal, R., Bermano, AH und Cohen-Or, D., 2022. https://arxiv.org/abs/2201.08361
[3] Kuang, Z., Olszewski, K., Chai, M., Huang, Z., Achlioptas, P. und Tulyakov, S., 2022. Neroic: Neurales Rendern von Objekten aus Online -Bildsammlungen. https://arxiv.org/pdf/2201.02533.pdf
[4] Borsos, Z., Sharifi, M. und Tagliasacchi, M., 2022. Speechpainter: Text-konditionierte Sprachanstriche. https://arxiv.org/pdf/2202.07273.pdf
[5] Wang, X., Li, Y., Zhang, H. and Shan, Y., 2021. Towards real-world blind face restoration with generative facial prior. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 9168–9178), https://arxiv.org/pdf/2101.04061.pdf
[6] Piergiovanni, AJ, Casser, V., Ryoo, MS and Angelova, A., 2021. 4d-net for learned multi-modal alignment. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 15435–15445), https://openaccess.thecvf.com/content/ICCV2021/papers/Piergiovanni_4D-Net_for_Learned_Multi-Modal_Alignment_ICCV_2021_paper.pdf.
[7] Thomas Muller, Alex Evans, Christoph Schied and Alexander Keller, 2022, "Instant Neural Graphics Primitives with a Multiresolution Hash Encoding", https://nvlabs.github.io/instant-ngp/assets/mueller2022instant.pdf
[8] A. Ramesh et al., 2022, "Hierarchical Text-Conditional Image Generation with CLIP Latents", https://cdn.openai.com/papers/dall-e-2.pdf
[9] Nitzan, Y., Aberman, K., He, Q., Liba, O., Yarom, M., Gandelsman, Y., Mosseri, I., Pritch, Y. and Cohen-Or, D., 2022. MyStyle: A Personalized Generative Prior. arXiv preprint arXiv:2203.17272.
[10] Zhang, Susan et al. “OPT: Open Pre-trained Transformer Language Models.” https://arxiv.org/abs/2205.01068
[11] Epstein, D., Park, T., Zhang, R., Shechtman, E. and Efros, AA, 2022. BlobGAN: Spatially Disentangled Scene Representations. arXiv preprint arXiv:2205.02837.
[12] Reed S. et al., 2022, Deemind: Gato - A generalist agent, https://storage.googleapis.com/deepmind-media/A%20Generalist%20Agent/Generalist%20Agent.pdf
[13] Saharia et al., 2022, Google Brain, Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding, https://gweb-research-imagen.appspot.com/paper.pdf
[14] Dayma, et al., 2021, DALL·E Mini, doi:10.5281/zenodo.5146400
[15] NLLB Team et al., 2022, No Language Left Behind: Scaling Human-Centered Machine Translation
[16] Sheinin, Mark and Chan, Dorian and O'Toole, Matthew and Narasimhan, Srinivasa G., 2022, Dual-Shutter Optical Vibration Sensing, Proc. IEEE CVPR.
[17] Gafni, O., Polyak, A., Ashual, O., Sheynin, S., Parikh, D. and Taigman, Y., 2022. Make-a-scene: Scene-based text-to-image generation with human priors. https://arxiv.org/pdf/2203.13131.pdf
[18] Yang, G., Vo, M., Neverova, N., Ramanan, D., Vedaldi, A. and Joo, H., 2022. Banmo: Building animatable 3d neural models from many casual videos. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 2863-2873).
[19] Rombach, R., Blattmann, A., Lorenz, D., Esser, P. and Ommer, B., 2022. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 10684–10695), https://arxiv.org/pdf/2112.10752.pdf
[20] Yang, J., Ang, YZ, Guo, Z., Zhou, K., Zhang, W. and Liu, Z., 2022. Panoptic Scene Graph Generation. arXiv preprint arXiv:2207.11247.
[21] Gal, R., Alaluf, Y., Atzmon, Y., Patashnik, O., Bermano, AH, Chechik, G. and Cohen-Or, D., 2022. An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion.
[22] Ni, B., Peng, H., Chen, M., Zhang, S., Meng, G., Fu, J., Xiang, S. and Ling, H., 2022. Expanding Language-Image Pretrained Models for General Video Recognition. arXiv preprint arXiv:2208.02816.
[23] Singer et al. (Meta AI), 2022, “MAKE-A-VIDEO: TEXT-TO-VIDEO GENERATION WITHOUT TEXT-VIDEO DATA”, https://makeavideo.studio/Make-A-Video.pdf
[24] Radford, A., Kim, JW, Xu, T., Brockman, G., McLeavey, C. and Sutskever, I., Robust Speech Recognition via Large-Scale Weak Supervision.
[25] Poole, B., Jain, A., Barron, JT and Mildenhall, B., 2022. DreamFusion: Text-to-3D using 2D Diffusion. arXiv preprint arXiv:2209.14988.
[26] Kawar, B., Zada, S., Lang, O., Tov, O., Chang, H., Dekel, T., Mosseri, I. and Irani, M., 2022. Imagic: Text-Based Real Image Editing with Diffusion Models. arXiv preprint arXiv:2210.09276.
[27] Balaji, Y. et al., 2022, eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers, https://arxiv.org/abs/2211.01324
[28] Li, Z., Wang, Q., Snavely, N. and Kanazawa, A., 2022. InfiniteNature-Zero: Learning Perpetual View Generation of Natural Scenes from Single Images. In European Conference on Computer Vision (pp. 515–534). Springer, Cham, https://arxiv.org/abs/2207.11148
[29] Taylor et al., 2022: Galactica: A Large Language Model for Science, https://galactica.org/
[30] Tang, J., Wang, K., Zhou, H., Chen, X., He, D., Hu, T., Liu, J., Zeng, G. and Wang, J., 2022. Real-time Neural Radiance Talking Portrait Synthesis via Audio-spatial Decomposition. arXiv preprint arXiv:2211.12368.
[31] OpenAI, 2022: ChatGPT: Optimizing Language Models for Dialogue, https://openai.com/blog/chatgpt/
[32] Loss et al., DisneyResearch, 2022: FRAN, https://studios.disneyresearch.com/2022/11/30/production-ready-face-re-aging-for-visual-effects/