Même avec tout ce qui s'est passé dans le monde cette année, nous avons encore eu la chance de voir beaucoup de recherches incroyables sortir. Surtout dans le domaine de l'intelligence artificielle. De plus, de nombreux aspects importants ont été mis en évidence cette année, comme les aspects éthiques, les biais importants et bien plus encore. L'intelligence artificielle et notre compréhension du cerveau humain et de son lien avec l'IA évoluent constamment, montrant des applications prometteuses dans un avenir bientôt.
Voici les articles de recherche les plus intéressants de l'année, au cas où vous auriez manqué l'un d'eux. En bref, il s'agit essentiellement d'une liste organisée des dernières percées de l'IA et de la science des données par date de sortie avec une explication vidéo claire, un lien vers un article plus approfondi et du code (le cas échéant). Profitez de la lecture!
La référence complète à chaque article est répertoriée à la fin de ce référentiel.
HEUPTENER - LOUISFB01
Abonnez-vous à ma newsletter - les dernières mises à jour de l'IA expliquées chaque semaine.
? Vérifiez le dépôt 2021!
N'hésitez pas à m'envoyer un message à tous les bons papiers que j'ai manqués pour ajouter à ce référentiel à [email protected]
Tagez-moi sur Twitter @Whats_ai ou LinkedIn @Louis (What's Ai) Bouchard si vous partagez la liste!
Les 10 meilleurs articles de vision par ordinateur en 2020 avec des démos vidéo, des articles, du code et une référence papier.
Top 10 des papiers de vision informatique 2020
? Si vous souhaitez soutenir mon travail et utiliser W&B (gratuitement) pour suivre vos expériences ML et rendre votre travail reproductible ou collaborer avec une équipe, vous pouvez l'essayer en suivant ce guide! Étant donné que la majeure partie du code ici est basée sur Pytorch, nous avons pensé qu'un guide QuickStart pour l'utilisation de W&B sur Pytorch serait le plus intéressant à partager.
Suivez ce guide rapide, utilisez les mêmes lignes W&B dans votre code ou l'un des références ci-dessous, et faites suivre toutes vos expériences automatiquement dans votre compte W&B! Il ne faut pas plus de 5 minutes pour s'installer et changera votre vie comme elle l'a fait pour moi! Voici un guide plus avancé pour utiliser des balayages hyperparamètres si vous êtes intéressé :)
? Merci à des poids et des préjugés pour avoir parrainé ce référentiel et le travail que j'ai fait, et merci à chacun d'entre vous en utilisant ce lien et en essayant W&B!
Cette 4e version a été récemment présentée en avril 2020 par Alexey Bochkovsky et al. Dans l'article "Yolov4: vitesse optimale et précision de la détection d'objets". L'objectif principal de cet algorithme était de fabriquer un détecteur d'objets super rapide de haute qualité en termes de précision.
Vous pouvez désormais générer des images de visage de haute qualité à partir de croquis rugueux ou même incomplets avec des compétences de dessin zéro en utilisant cette nouvelle technique de traduction d'image à image! Si vos compétences en dessin aussi mauvaises que la mienne, vous pouvez même ajuster la quantité que les yeux, la bouche et le nez affecteront l'image finale! Voyons si cela fonctionne vraiment et comment ils l'ont fait.
Gamegan, un réseau adversaire génératif formé sur 50 000 épisodes Pac-Man, produit une version entièrement fonctionnelle du classique des points sans moteur de jeu sous-jacent.
Ce nouvel algorithme transforme une image floue en une image haute résolution! Il peut prendre une image 16x16 super basse résolution et la transformer en un visage humain haute définition 1080p! Tu ne me crois pas? Ensuite, vous pouvez faire comme moi et l'essayer sur vous-même en moins d'une minute! Mais d'abord, voyons comment ils ont fait cela.
Ce nouveau modèle convertit le code d'un langage de programmation à un autre sans aucune supervision! Il peut prendre une fonction Python et le traduire en une fonction C ++, et vice-versa, sans aucun exemples antérieurs! Il comprend la syntaxe de chaque langue et peut ainsi se généraliser à tout langage de programmation! Voyons comment ils ont fait cela.
Cette IA génère des reconstructions à haute résolution 3D de personnes à partir d'images 2D! Il n'a besoin que d'une seule image de vous pour générer un avatar 3D qui vous ressemble, même à l'arrière!
Des chercheurs de Disney ont développé un nouvel algorithme d'échange de visage haute résolution par des effets visuels dans l'article du même nom. Il est capable de rendre des résultats photo-réalistes à la résolution des mégapixels. Travaillant pour Disney, ils sont certainement la meilleure équipe pour ce travail. Leur objectif est d'échanger le visage d'un acteur cible d'un acteur source tout en maintenant la performance de l'acteur. Ceci est incroyablement difficile et est utile dans de nombreuses circonstances, comme changer l'âge d'un personnage, lorsqu'un acteur n'est pas disponible, ou même lorsqu'il implique une scène de cascade qui serait trop dangereuse pour que l'acteur principal puisse jouer. Les approches actuelles nécessitent beaucoup d'animation par trame et de post-traitement par des professionnels.
Cette nouvelle technique peut changer la texture de n'importe quelle image tout en restant réaliste en utilisant une formation complète non supervisée! Les résultats semblent encore meilleurs que ce que Gans peut réaliser tout en étant beaucoup plus rapide! Il pourrait même être utilisé pour créer Deepfakes!
Les systèmes de PNL de pointe actuels ont du mal à généraliser pour travailler sur différentes tâches. Ils doivent être affinés sur des ensembles de données de milliers d'exemples tandis que les humains n'ont besoin que de quelques exemples pour effectuer une nouvelle tâche de langue. C'était l'objectif derrière GPT-3, pour améliorer la caractéristique agnostique des tâches des modèles de langage.
Cette IA peut remplir les pixels manquants derrière un objet en mouvement supprimé et reconstruire toute la vidéo avec beaucoup plus de précision et moins de flou que les approches actuelles de pointe!
Une bonne IA, comme celle utilisée dans Gmail, peut générer du texte cohérent et terminer votre phrase. Celui-ci utilise les mêmes principes pour compléter une image! Tout dans une formation non supervisée sans aucune étiquette requise!
Cette IA peut caricaturer n'importe quelle image ou vidéo que vous le nourrissez dans le style de dessin animé que vous voulez! Voyons comment cela fait cela et quelques exemples incroyables. Vous pouvez même l'essayer vous-même sur le site Web qu'ils ont créé comme je l'ai fait pour moi!
Ce modèle de génération de visage est capable de transférer des photographies de visage normales en styles distinctifs tels que le style de dessin animé de Lee Mal-Nyeon, les Simpsons, les arts et même les chiens! La meilleure chose à propos de cette nouvelle technique est qu'elle est super simple et surpasse considérablement les techniques précédentes utilisées dans les Gans.
L'algorithme représente la pose et la forme du corps en tant que maillage paramétrique qui peut être reconstruit à partir d'une seule image et facilement reposé. Étant donné une image d'une personne, ils sont capables de créer des images synthétiques de la personne dans différentes poses ou avec différents vêtements obtenus à partir d'une autre image d'entrée.
Leur objectif était de proposer une nouvelle technique pour la pose humaine 3D et l'estimation du maillage à partir d'une seule image RVB. Ils l'ont appelé I2L-Meshnet. Où i2l signifie image-to-lixel. Tout comme un voxel, volume + pixel, est une cellule quantifiée dans l'espace tridimensionnel, ils ont défini le lixel, une ligne et un pixel, comme une cellule quantifiée dans un espace unidimensionnel. Leur méthode surpasse les méthodes précédentes et le code est accessible au public!
https://github.com/mks0601/i2l-meshnet_release
La navigation guidée par le langage est un domaine largement étudié et très complexe. En effet, il peut sembler simple pour un humain de simplement marcher dans une maison pour accéder à votre café que vous avez laissé sur votre table de nuit à gauche de votre lit. Mais c'est une toute autre histoire pour un agent, qui est un système autonome axé sur l'IA utilisant l'apprentissage en profondeur pour effectuer des tâches.
Le prix du meilleur papier ECCV 2020 va à Princeton Team. Ils ont développé un nouveau modèle formable de bout en bout pour le flux optique. Leur méthode bat la précision des architectures de pointe dans plusieurs ensembles de données et est beaucoup plus efficace. Ils ont même rendu le code disponible pour tout le monde sur leur github!
En utilisant des photos publiques des touristes d'Internet, ils ont pu reconstruire plusieurs points de vue d'une scène en conservant les ombres et l'éclairage réalistes! Il s'agit d'une énorme progression des techniques de pointe pour le rendu de la scène photoréaliste et leurs résultats sont tout simplement incroyables.
Imaginez avoir les vieilles photos pliées et même déchirées de votre grand-mère quand elle avait 18 ans en haute définition avec des artefacts zéro. Ceci est appelé Old Photo Restoration et cet article vient d'ouvrir une toute nouvelle avenue pour résoudre ce problème à l'aide d'une approche d'apprentissage en profondeur.
Des chercheurs de l'IST en Autriche et du MIT ont réussi à former une voiture autonome en utilisant un nouveau système d'intelligence artificielle basée sur le cerveau de minuscules animaux, comme les anomalies. Ils ont réalisé qu'avec seulement quelques neurones capables de contrôler la voiture autonome, par rapport aux millions de neurones nécessaires aux réseaux de neurones profonds populaires tels que les créations, les résinets ou le VGG. Leur réseau a pu contrôler complètement une voiture en utilisant seulement 75 000 paramètres, composés de 19 neurones témoins, plutôt que de millions!
Une équipe de chercheurs d'Adobe Research a développé une nouvelle technique de synthèse de transformation d'âge basée sur une seule image de la personne. Il peut générer les images de durée de vie à partir de n'importe quelle image que vous lui avez envoyée.
Deoltify est une technique pour colorer et restaurer de vieilles images en noir et blanc ou même des images de films. Il a été développé et est toujours mis à jour par une seule personne Jason Antic. C'est maintenant la manière de pointe de la façon de colorer les images en noir et blanc, et tout est open source, mais nous y reviendrons un peu.
Comme son nom l'indique, il utilise Transformers pour générer des descriptions de texte précises pour chaque séquence d'une vidéo, en utilisant à la fois la vidéo et une description générale de celui-ci comme entrées.
Cette méthode de traduction d'image à peinture simule un vrai peintre sur plusieurs styles en utilisant une nouvelle approche qui n'implique aucune architecture GaN, contrairement à toutes les approches actuelles de pointe!
Le tapis humain est une tâche extrêmement intéressante où l'objectif est de trouver n'importe quel humain dans une image et d'en supprimer l'arrière-plan. Il est vraiment difficile à réaliser en raison de la complexité de la tâche, de devoir trouver la personne ou les personnes avec le contour parfait. Dans cet article, je passe en revue les meilleures techniques utilisées au fil des ans et une nouvelle approche publiée le 29 novembre 2020. très précis.
Avec cette nouvelle méthode de formation développée par Nvidia, vous pouvez former un puissant modèle génératif avec un dixième des images! Rendre possible de nombreuses applications qui n'ont pas accès à autant d'images!
Avec cette nouvelle méthode de formation développée par Nvidia, vous pouvez former un puissant modèle génératif avec un dixième des images! Rendre possible de nombreuses applications qui n'ont pas accès à autant d'images!
Cette nouvelle méthode est capable de générer une scène tridimensionnelle complète et a la capacité de décider de l'éclairage de la scène. Tout cela avec des coûts de calcul très limités et des résultats incroyables par rapport aux approches précédentes.
? Vérifiez le dépôt 2021!
Tagez-moi sur Twitter @Whats_ai ou LinkedIn @Louis (What's Ai) Bouchard si vous partagez la liste!
[1] A. Bochkovskiy, C.-Y. Wang et H.-My Liao, Yolov4: Speed Optimal et précision de la détection d'objets, 2020. Arxiv: 2004.10934 [CS.CV].
[2] S.-Y. Chen, W. Su, L. Gao, S. Xia et H. Fu, «Deeplacedrawing: Deep Generation of Face Images from Sketches», ACM Transactions on Graphics (Actes d'ACM Siggraph2020), vol. 39, no. 4, 72: 1–72: 16, 2020.
[3] SW Kim, Y. Zhou, J. Philion, A. Torralba et S. Fidler, "Apprendre à simuler DynamiCenvironments with Gamegan", dans la conférence IEEE sur la vision informatique et la reconnaissance des modèles (CVPR), juin 2020.
[4] S. Menon, A. Damian, S. Hu, N. Ravi et C. Rudin, Pulse: Ups échantillonnage de photo autopéré via l'exploration de l'espace latent des modèles génératifs, 2020. Arxiv: 2003.03808 [CS.CV].
[5] M.-A. Lachaux, B. Roziere, L. Chanussot et G. Lample, Traduction non supervisée des langages de programmation, 2020. Arxiv: 2006.03511 [CS.CL].
[6] S. Saito, T. Simon, J. Saragih et H. Joo, Pifuhd: Fonction implicite alignée sur les pixels à plusieurs niveaux pour la numérisation humaine 3D haute résolution, 2020. Arxiv: 2004.00452 [CS.CV].
[7] J. Naruniec, L. Helminger, C. Schroers et R. Weber, «L'échange de visage neuronal haute résolution pour les effets visuels», Informatique Forum, vol. 39, pp. 173–184, juillet 2020.doi: 10.1111 / cgf.14062.
[8] T. Park, J.-Y. Zhu, O. Wang, J. Lu, E. Shechtman, AA Efros et R. Zhang, Swappingautoencoder for Deep Image Manipulation, 2020. Arxiv: 2007.00653 [CS.CV].
[9] TB Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P.Shyam, G. Sastry, A. Askell, S. Agarwal, A. Herbert- Voss, G. Krueger, T. Henighan, R. Child, A. Ramesh, DM Ziegler, J. Wu, C. Winter, C. Hesse, M. Chen, E. Sigler, M. Litwin, S.Gray, B. Chess, J. Clark, C. Berner, S. McCandlish, A. Radford, I. Sutskever et D. Amodei, "Les modèles de langues sont des apprenants à moins", 2020 .
[10] Y. Zeng, J. Fu et H. Chao, Learning Joint Spatial-Temporal Transformations for Video Encainting, 2020. Arxiv: 2007.10247 [CS.CV].
[11] M. Chen, A. Radford, R. Child, J. Wu, H. Jun, D. Luan et I. Sutskever, «Generative Pretoring from Pixels», dans Actes de la 37e Conférence internationale sur l'apprentissage automatique, HD III et A. Singh, éd., Ser. Actes de la recherche sur l'apprentissage automatique, vol. 119, virtuel: PMLR, 13–18 juillet 2020, pp. 1691–1703. [En ligne]. Disponible: http: //proceedings.mlr.press/v119/chen20s.html.
[12] Xinrui Wang et Jinze Yu, "Apprendre à caricaturer à l'aide de représentations de dessins animés de la boîte blanche.", Conférence IEEE sur la vision par ordinateur et la reconnaissance des modèles, juin 2020.
[13] S. Mo, M. Cho et J. Shin, Freeze the Discriminator: A Simple Baseline for Fineding Gans, 2020. Arxiv: 2002.10964 [CS.CV].
[14] K. Sarkar, D. Mehta, W. Xu, V. Golyanik et C. Theobalt, "Re-Rendering of Humans from a Imous Image", in European Conference on Computer Vision (ECCV), 2020.
[15] G. Moon et KM Lee, "I2L-Meshnet: Image-to-Lixel Prédiction Network for Human Pose et Mesh Estimation précise à partir d'une seule image RVB", dans la Conférence européenne sur ComputerServision (ECCV), 2020
[16] J. Krantz, E. Wijmans, A. Majumdar, D. Batra et S. Lee, «Beyond the Nav-graph: vision and-language Navigation in continu Environments», 2020. Arxiv: 2004.02857 [CS. Cv].
[17] Z. Teed et J. Deng, Raft: Transformes de champ tout-paires récurrentes pour le flux optique, 2020. Arxiv: 2003.12039 [CS.CV].
[18] Z. Li, W. Xian, A. Davis et N. Snavely, «Crowdsch.
[19] Z. Wan, B. Zhang, D. Chen, P. Zhang, D. Chen, J. Liao et F. Wen, Old Photo Restoration via Deep Latent Space Translation, 2020. Arxiv: 2009.07047 [CS.CV ].
[20] Lechner, M., Hasani, R., Amini, A. et al. Politiques du circuit neuronal permettant une autonomie vérifiable. Nat Mach Intelle 2, 642–652 (2020). https://doi.org/10.1038/S42256-020-00237-3
[21] R. Or-El, S. Sengupta, O. Fried, E. Shechtman et I. Kemelmacher-Shlizerman, «Lifepanage Transformation Synthesis», dans Actes de la Conférence européenne sur la vision par ordinateur (ECCV), 2020.
[22] Jason Antic, Créateur de DeoLify, https://github.com/jantic/deoltify
[23] S. Ging, M. Zolfaghari, H. Pirsiavash et T. Brox, «Coot: Cooperative Hiérarchical Trans-former for Video-Text Representation Learning», In Conference on Neural Information Processsystems, 2020.
[24] Z. Zou, T. Shi, S. Qiu, Y. Yuan et Z. Shi, peinture neuronale stylisée, 2020. Arxiv: 2011.08114 [cs.cv].
[25] Z. Ke, K. Li, Y. Zhou, Q. Wu, X. Mao, Q. Yan et RW Lau, "Un écran vert est-il vraiment nécessaire pour le portrait en temps réel Matting?" Arxiv, vol. ABS / 2011.11961, 2020.
[26] T. Karras, M. Aittala, J. Hellsten, S. Laine, J. Lehtinen et T. Aila, Training Generative Adversarial Networks with Limited Data, 2020. Arxiv: 2006.06676 [CS.CV].
[27] Ja Weyn, Dr Durran et R. Caruana, "Amélioration de la prédiction météorologique mondiale basée sur les données à l'aide de réseaux de neurones convolutionnels profonds sur une sphère en cubes", Journal of Advances in Modeling Earth Systems, vol. 12, non. 9, sept. 2020, ISSN: 1942-2466.doi: 10.1029 / 2020ms002109
[28] PP Srinivasan, B. Deng, X. Zhang, M. Tancik, B. Mildenhall et Jt Barron, "Nerv: Neural Reflectance and Visibility Fields for Remitting and View Synthesis", in Arxiv, 2020.