Selbst mit allem, was in diesem Jahr auf der Welt passiert ist, hatten wir immer noch die Möglichkeit, viele erstaunliche Forschungen herauszuholen. Vor allem im Bereich der künstlichen Intelligenz. Darüber hinaus wurden in diesem Jahr viele wichtige Aspekte hervorgehoben, wie die ethischen Aspekte, wichtige Verzerrungen und vieles mehr. Die künstliche Intelligenz und unser Verständnis des menschlichen Gehirns und seiner Verbindung zur KI entwickeln sich ständig weiter und zeigen in der baldigen Zukunft vielversprechende Anwendungen.
Hier sind die interessantesten Forschungsarbeiten des Jahres, falls Sie einen von ihnen verpasst haben. Kurz gesagt, es handelt sich im Grunde genommen um eine kuratierte Liste der neuesten Durchbrüche in AI und Data Science bis zum Veröffentlichungsdatum mit einer klaren Videoerklärung, einem ausführlicheren Artikel und dem Code (falls zutreffend). Genieße die Lektüre!
Die vollständige Verweise auf jedes Papier ist am Ende dieses Repositorys aufgeführt.
Betreuer - Louisfb01
Abonnieren Sie meinen Newsletter - die neuesten Updates in AI, die jede Woche erklärt hat.
? Überprüfen Sie das 2021 Repo!
Fühlen Sie sich frei, mir tolle Papiere zu senden, die ich verpasst habe, um dieses Repository unter [email protected] hinzuzufügen
Tag auf Twitter @whats_ai oder linkedIn @Louis (was ist AI) Bouchard, wenn Sie die Liste teilen!
Die Top 10 Computer Vision Papers im Jahr 2020 mit Videodemos, Artikeln, Code und Papierreferenz.
Top 10 Computer Vision Papers 2020
? Wenn Sie meine Arbeit unterstützen und W & B (kostenlos) verwenden möchten, um Ihre ML -Experimente zu verfolgen und Ihre Arbeit reproduzierbar zu machen oder mit einem Team zusammenzuarbeiten, können Sie es ausprobieren, indem Sie diesem Leitfaden folgen! Da der größte Teil des Codes hier Pytorch-basiert ist, dachten wir, dass ein QuickStart-Leitfaden zur Verwendung von W & B auf Pytorch am interessantesten wäre.
Befolgen Sie diese schnellen Anleitung, verwenden Sie dieselben W & B -Zeilen in Ihrem Code oder eines der folgenden Repos und lassen Sie alle Ihre Experimente automatisch in Ihrem W & B -Konto verfolgt! Die Einrichtung dauert nicht länger als 5 Minuten und wird Ihr Leben verändern wie für mich! Hier ist ein fortschrittlicherer Leitfaden für die Verwendung von Hyperparameter -Sweeps bei Interesse :)
? Vielen Dank an Gewichte und Vorurteile für das Sponsern dieses Repositorys und der Arbeit, die ich geleistet habe, und dank eines von Ihnen, der diesen Link verwendet und W & B probiert!
Diese 4. Version wurde kürzlich im April 2020 von Alexey Bochkovsky et al. In der Arbeit "Yolov4: optimale Geschwindigkeit und Genauigkeit der Objekterkennung". Das Hauptziel dieses Algorithmus war es, einen superschnellen Objektdetektor mit hoher Qualität in Bezug auf die Genauigkeit zu erstellen.
Sie können jetzt qualitativ hochwertige Gesichtsbilder aus rauen oder sogar unvollständigen Skizzen ohne Zeichnungsfähigkeiten erstellen, indem Sie diese neue Bild-zu-Image-Übersetzungstechnik mit Null zeichneten! Wenn Ihre Zeichnungsfähigkeiten so schlecht wie meine, können Sie sogar anpassen, wie viel Augen, Mund und Nase das endgültige Bild beeinflussen! Mal sehen, ob es wirklich funktioniert und wie sie es gemacht haben.
Gamegan, ein generatives kontroverses Netzwerk, das auf 50.000 Pac-Man-Episoden ausgebildet ist, produziert eine voll funktionsfähige Version des Dot-Juching-Klassikers ohne zugrunde liegende Game-Engine.
Dieser neue Algorithmus verwandelt ein verschwommenes Bild in ein hochauflösendes Bild! Es kann ein 16x16-Bild mit einer superauflösenden Auflösung erfordern und es in ein hochauflösendes 1080p-menschliches Gesicht verwandeln! Du glaubst mir nicht? Dann können Sie in weniger als einer Minute genau wie ich wie ich tun und es an sich selbst versuchen! Aber zuerst mal sehen, wie sie das gemacht haben.
Dieses neue Modell wandelt Code von einer Programmiersprache ohne Aufsicht in eine andere um! Es kann eine Python-Funktion erfolgen und sie in eine C ++-Funktion und umgekehrt ohne vorherige Beispiele umsetzen! Es versteht die Syntax jeder Sprache und kann somit auf jede Programmiersprache verallgemeinern! Mal sehen, wie sie das gemacht haben.
Diese KI erzeugt 3D-hochauflösende Rekonstruktionen von Menschen aus 2D-Bildern! Es braucht nur ein einzelnes Bild von Ihnen, um einen 3D -Avatar zu erzeugen, der wie Sie aussieht, auch von hinten!
Forscher von Disney entwickelten einen neuen hochauflösenden Gesichtsaustauschalgorithmus für visuelle Effekte im gleichnamigen Papier. Es kann bei der Megapixel-Auflösung fotol-realistische Ergebnisse erzielen. Wenn sie für Disney arbeiten, sind sie mit Sicherheit das beste Team für diese Arbeit. Ihr Ziel ist es, das Gesicht eines Zielschauspielers von einem Quelldarsteller auszutauschen und gleichzeitig die Leistung des Schauspielers beizubehalten. Dies ist unglaublich herausfordernd und unter vielen Umständen nützlich, z. B. das Alter eines Charakters, wenn ein Schauspieler nicht verfügbar ist oder wenn es sich um eine Stunt -Szene handelt, die für den Hauptdarsteller zu gefährlich wäre, um sie auszuführen. Die aktuellen Ansätze erfordern eine Menge Frame-by-Frame-Animationen und Nachbearbeitung durch Fachleute.
Diese neue Technik kann die Textur eines beliebigen Bildes ändern und gleichzeitig mit einem vollständigen unbeaufsichtigten Training realistisch bleiben! Die Ergebnisse sehen noch besser aus als das, was Gans erreichen kann, während sie viel schneller sind! Es könnte sogar verwendet werden, um Deepfakes zu erstellen!
Die aktuellen hochmodernen NLP-Systeme haben Schwierigkeiten, auf verschiedene Aufgaben zu arbeiten. Sie müssen in Datensätzen von Tausenden von Beispielen fein abgestimmt sein, während der Mensch nur einige Beispiele sehen müssen, um eine neue Sprachaufgabe auszuführen. Dies war das Ziel hinter GPT-3, das aufgabenagnostische Merkmal von Sprachmodellen zu verbessern.
Diese KI kann die fehlenden Pixel hinter einem entfernten sich bewegenden Objekt füllen und das gesamte Video mit viel genauerer Genauigkeit und weniger Unschärfe rekonstruieren als die aktuellen hochmodernen Ansätze!
Eine gute KI kann wie die in Google Mail verwendete KI kohärenten Text erzeugen und Ihren Satz beenden. Dieser verwendet die gleichen Prinzipien, um ein Bild zu vervollständigen! Alles in einem unbeaufsichtigten Training ohne Etiketten, die überhaupt nicht erforderlich sind!
Diese KI kann jedes Bild oder Video kartoonisieren, das Sie in den gewünschten Cartoon -Stil füttern! Mal sehen, wie es das macht und einige erstaunliche Beispiele. Sie können es sogar selbst auf der Website ausprobieren, die sie so erstellt haben, wie ich es für mich selbst getan habe!
Dieses Modell für das Gesicht erzeugt sich in der Lage, normale Gesichtsfotos in unverwechselbare Stile wie Lee Mal-nyeons Cartoon-Stil, die Simpsons, Kunst und sogar Hunde zu übertragen! Das Beste an dieser neuen Technik ist, dass sie super einfach ist und frühere Techniken in Gans übertrifft.
Der Algorithmus stellt Körperpose und Form als parametrisches Netz dar, das aus einem einzelnen Bild rekonstruiert und leicht ausgerichtet werden kann. Bei einem Bild einer Person sind sie in der Lage, synthetische Bilder der Person in verschiedenen Posen oder mit unterschiedlichen Kleidung zu erstellen, die aus einem anderen Eingabebild erhalten wurden.
Ihr Ziel war es, eine neue Technik für die 3D -menschliche Pose- und Netzschätzung aus einem einzigen RGB -Bild vorzuschlagen. Sie nannten es i2l-meshnet. Wo i2l für Image-to-Lixel steht. Genau wie ein Voxel, Volumen + Pixel, definiert sie eine quantisierte Zelle im dreidimensionalen Raum, sie definierten Lixel, eine Linie und Pixel als quantisierte Zelle im eindimensionalen Raum. Ihre Methode übertrifft frühere Methoden und der Code ist öffentlich verfügbar!
https://github.com/mks0601/i2l-meshnet_release
Die sprachgeführte Navigation ist ein weit verbreitetes und ein sehr komplexes Feld. In der Tat mag es für einen Menschen einfach erscheinen, einfach durch ein Haus zu gehen, um zu Ihrem Kaffee zu gelangen, den Sie auf Ihrem Nachttisch links von Ihrem Bett gelassen haben. Aber es ist eine ganz andere Geschichte für einen Agenten, ein autonomes KI-gesteuerter System, das Deep Learning verwendet, um Aufgaben auszuführen.
ECCV 2020 Best Paper Award geht an das Princeton -Team. Sie entwickelten ein neues End-to-End-Modell für den optischen Fluss. Ihre Methode übertrifft die Genauigkeit der Architekturen auf dem neuesten Stand der Technik in mehreren Datensätzen und ist viel effizienter. Sie haben sogar den Code für alle in ihrem Github zur Verfügung gestellt!
Mit den öffentlichen Fotos von Touristen aus dem Internet konnten sie mehrere Standpunkte einer Szene rekonstruieren, die die realistischen Schatten und die Beleuchtung spart! Dies ist eine enorme Weiterentwicklung der hochmodernen Techniken für die Wiedergabe der fotorealistischen Szene und ihre Ergebnisse sind einfach erstaunlich.
Stellen Sie sich vor, Sie hätten die alten, gefalteten und sogar zerrissenen Bilder Ihrer Großmutter, als sie 18 Jahre alt war, ohne Artefakte. Dies wird als alte Foto -Restaurierung bezeichnet und dieses Papier hat gerade eine ganz neue Möglichkeit geöffnet, um dieses Problem mit einem Deep -Learning -Ansatz anzugehen.
Forscher aus IST Österreich und MIT haben ein selbstfahrendes Auto mit einem neuen künstlichen Intelligenzsystem, das auf den Gehirnen winziger Tiere wie Fadenwürmer basiert, erfolgreich geschult. Sie erreichten dies mit nur wenigen Neuronen, um das selbstfahrende Auto zu kontrollieren, verglichen mit den Millionen von Neuronen, die von den populären tiefen neuronalen Netzwerken wie Inzeption, ResNets oder VGG benötigt werden. Ihr Netzwerk war in der Lage, ein Auto mit nur 75 000 Parametern vollständig zu steuern, die aus 19 Kontrollneuronen und nicht aus Millionen!
Ein Team von Forschern aus Adobe Research entwickelte eine neue Technik für die Altersumwandlungssynthese, die nur auf einem Bild der Person basiert. Es kann die Lebensdauerbilder aus jedem Bild erzeugen, das Sie gesendet haben.
Deoldify ist eine Technik, um alte Schwarzweißbilder oder sogar Filmmaterial zu fördern und wiederherzustellen. Es wurde entwickelt und wird immer noch von nur einer Person Jason Antic aktualisiert. Es ist jetzt der Stand der Kunst, Schwarzweißbilder zu fördern, und alles ist offen, aber wir werden ein wenig darauf zurückkommen.
Wie der Name sagt, verwendet er Transformatoren, um genaue Textbeschreibungen für jede Sequenz eines Videos zu generieren, wobei sowohl das Video als auch eine allgemeine Beschreibung als Eingänge verwendet werden.
Diese Image-zu-Maining-Übersetzungsmethode simuliert einen echten Maler auf mehreren Stilen mit einem neuartigen Ansatz, bei dem im Gegensatz zu allen aktuellen Stand-the-Art-Ansätzen keine GAN-Architektur beinhaltet!
Menschliches Matting ist eine äußerst interessante Aufgabe, bei der das Ziel darin besteht, einen Menschen in einem Bild zu finden und den Hintergrund davon zu entfernen. Aufgrund der Komplexität der Aufgabe ist es wirklich schwer zu erreichen, die Person oder die Menschen mit der perfekten Kontur zu finden. In diesem Beitrag überprüfe ich die besten Techniken im Laufe der Jahre und einen neuartigen Ansatz, der am 29. November 2020 veröffentlicht wurde. Viele Techniken verwenden grundlegende Computer -Vision -Algorithmen, um diese Aufgabe zu erreichen, wie den Grabcut -Algorithmus, der extrem schnell ist, aber nicht sehr präzise.
Mit dieser neuen Trainingsmethode, die von NVIDIA entwickelt wurde, können Sie ein leistungsstarkes generatives Modell mit einem Zehntel der Bilder schulen! Ermöglichen Sie vielen Anwendungen, die keinen Zugriff auf so viele Bilder haben!
Mit dieser neuen Trainingsmethode, die von NVIDIA entwickelt wurde, können Sie ein leistungsstarkes generatives Modell mit einem Zehntel der Bilder schulen! Ermöglichen Sie vielen Anwendungen, die keinen Zugriff auf so viele Bilder haben!
Diese neue Methode ist in der Lage, eine vollständige dreidimensionale Szene zu erzeugen und kann die Beleuchtung der Szene entscheiden. All dies mit sehr begrenzten Berechnungskosten und erstaunlichen Ergebnissen im Vergleich zu früheren Ansätzen.
? Überprüfen Sie das 2021 Repo!
Tag auf Twitter @whats_ai oder linkedIn @Louis (was ist AI) Bouchard, wenn Sie die Liste teilen!
[1] A. Bochkovskiy, C.-Y. Wang und H.-Mym Liao, Yolov4: Optimale Geschwindigkeit und Genauigkeit der Objekterkennung, 2020. ARXIV: 2004.10934 [Cs.CV].
[2] S.-Y. Chen, W. Su, L. Gao, S. Xia und H. Fu, "Deep FacedRawing: Deep -Generation von Gesichtsbildern aus Skizzen", ACM -Transaktionen zu Grafiken (Proceedings of ACM Siggraph2020), vol. 39, nein. 4, 72: 1–72: 16, 2020.
[3] SW Kim, Y. Zhou, J. Philion, A. Torralba und S. Fidler, "Lernen, Dynamikumgebungen mit Gamegan zu simulieren", in der IEEE -Konferenz über Computer Vision und Mustererkennung (CVPR), Juni 2020.
[4] S. Menon, A. Damian, S. Hu, N. Ravi und C. Rudin, Impuls: Selbstversorgunges Foto-Upsampling über latente Weltraumforschung von generativen Modellen, 2020. ARXIV: 2003.03808 [Cs.CV].
[5] M.-A. Lachaux, B. Roziere, L. Chanussot und G. Lample, unbeaufsichtigte Übersetzung von Programmiersprachen, 2020. ARXIV: 2006.03511 [Cs.Cl].
[6] S. Saito, T. Simon, J. Saragih und H. Joo, Pifuhd: Multi-Level-Pixel-implizite Funktion für hochauflösende 3D-menschliche Digitalisierung, 2020. ARXIV: 2004.00452 [Cs.CV].
[7] J. Naruniec, L. Helminger, C. Schroers und R. Weber, "Hochauflösende neuronale Gesichtswappung für visuelle Effekte", Computer Graphics Forum, Vol. 39, S. 173–184, Jul. 2020.doi: 10.1111/cgf.14062.
[8] T. Park, J.-Y. Zhu, O. Wang, J. Lu, E. Shechtman, AA Efros und R. Zhang, Swappingautoencoder für Deep Image Manipulation, 2020. Arxiv: 2007.00653 [Cs.CV].
[9] TB Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P.Shyam, G. Sastry, A. Askell, S. Agarwal, A. Herbert- Voss, G. Krueger, T. Henighan, R. Child, A. Ramesh, DM Ziegler, J. Wu, C. Winter, C. Hesse, M. Chen, E. Sigler, M. Litwin, S. Gray, B. Chess, J. Clark, C. Berner, S. McCandlish, A. Radford, I. Sutskever und D. Amodei, "Sprachmodelle sind nur wenige Schusslerner", 2020 .
[10] Y. Zeng, J. Fu und H. Chao, Lerngelenks-räumlich-zeitliche Transformationen für Video-In-Bainting, 2020. ARXIV: 2007.10247 [Cs.CV].
[11] M. Chen, A. Radford, R. Child, J. Wu, H. Jun, D. Luan und I. Sutskever, "Generative Pretcraining aus Pixel", in Proceedings der 37. Internationalen Konferenz über maschinelles Lernen, HD III und A. Singh, Hrsg., Ser. Proceedings of Machine Learning Research, Vol. 119, Virtual: PMLR, 13. -18. Juli 2020, S. 1691–1703. [Online]. Verfügbar: http: //proceedings.mlr.press/v119/chen20s.html.
[12] Xinrui Wang und Jinze Yu, "Lernen, mithilfe von White-Box-Cartoon-Darstellungen zu lernen.", IEEE-Konferenz über Computer Vision und Mustererkennung, Juni 2020.
[13] S. Mo, M. Cho und J. Shin, frieren den Diskriminator ein: eine einfache Grundlinie für die Feinabstimmung Gans, 2020. ARXIV: 2002.10964 [Cs.CV].
[14] K. Sarkar, D. Mehta, W. Xu, V. Golyanik und C. Theobalt, "Neuronales Wiederholungsrendern von Menschen aus einem einzigen Bild" in Europäischer Konferenz über Computer Vision (ECCV), 2020.
[15] G. Moon und KM Lee, "I2L-Meshnet: Image-to-Lixel-Vorhersage-Netzwerk für eine genaue 3D-Humanpose- und Mesh-Schätzung aus einem einzigen RGB-Image", in der Europäischen Konferenz über Computerervision (ECCV), 2020
[16] J. Krantz, E. Wijmans, A. Majumdar, D. Batra und S. Lee, "Beyond the Navraph: Vision-and-Language Navigation in kontinuierlichen Umgebungen", 2020. ARXIV: 2004.02857 [CS. Lebenslauf].
[17] Z. Teed und J. Deng, Floß: Wiederkehrende All-Pair-Feldtransformationen für den optischen Fluss, 2020. ARXIV: 2003.12039 [Cs.CV].
[18] Z. Li, W. Xian, A. Davis und N. Snavely, "CrowdSamping the Plenoptic -Funktion", Inproc.Europäische Konferenz über Computer Vision (ECCV), 2020.
[19] Z. Wan, B. Zhang, D. Chen, P. Zhang, D. Chen, J. Liao und F. Wen. ].
[20] M. Lechner, R. Hasani, A. Amini et al. Richtlinien für neuronale Schaltkreise ermöglichen eine prüfbare Autonomie. Nat Mach Intell 2, 642–652 (2020). https://doi.org/10.1038/s42256-020-00237-3
[21] R. Or-El, S. Sengupta, O. Fried, E. Shechtman und I. Kemelmacher-Shrizerman, "LifePanage Transformation Synthese", in Proceedings of the European Conference on Computer Vision (ECCV), 2020.
[22] Jason Antic, Schöpfer von Entoldung, https://github.com/jantic/deoldify
[23] S. Ging, M. Zolfaghari, H. Pirsiavash und T. Brox, "Coot: Kooperative hierarchische Trans-Former für Video-Text-Repräsentation", in der Konferenz über neuronale Informationsprozessungen, 2020.
[24] Z. Zou, T. Shi, S. Qiu, Y. Yuan und Z. Shi, stilisierter neuronaler Malerei, 2020. Arxiv: 2011.08114 [Cs.CV].
[25] Z. Ke, K. Li, Y. Zhou, Q. Wu, X. Mao, Q. Yan und RW Lau, "Ist ein grüner Bildschirm wirklich für Echtzeit-Porträtmatting erforderlich?" Arxiv, Vol. ABS/2011.11961, 2020.
[26] T. Karras, M. Aittala, J. Hellsten, S. Laine, J. Lehtinen und T. Aila, Schulung generative kontroverse Netzwerke mit begrenzten Daten, 2020. Arxiv: 2006.06676 [Cs.CV].
[27] Ja Weyn, Dr. Durran und R. Caruana, "Verbesserung der datengesteuerten globalen Wettervorhersage unter Verwendung von tiefen neuronalen Netzwerken auf einer gewürzten Sphäre", Journal of Advances in Modeling Earth Systems, Vol. 3, No. 12, nein. 9, September 2020, ISSN: 1942–2466.doi: 10.1029/2020ms002109
[28] S.