Alors que le monde se rétablit toujours, la recherche n'a pas ralenti son rythme frénétique, en particulier dans le domaine de l'intelligence artificielle. De plus, de nombreux aspects importants ont été mis en évidence cette année, comme les aspects éthiques, les biais importants, la gouvernance, la transparence et bien plus encore. L'intelligence artificielle et notre compréhension du cerveau humain et de son lien avec l'IA évoluent constamment, montrant des applications prometteuses améliorant la qualité de notre vie dans un avenir proche. Pourtant, nous devons être prudents avec la technologie que nous choisissons d'appliquer.
"La science ne peut pas nous dire ce que nous devons faire, seulement ce que nous pouvons faire."
- Jean-Paul Sartre, être et néant
Voici la liste organisée des dernières percées dans l'IA et la science des données par date de sortie avec une explication vidéo claire, un lien vers un article plus approfondi et un code (le cas échéant). Profitez de la lecture!
La référence complète à chaque article est répertoriée à la fin de ce référentiel. Jouez ce référentiel pour rester à jour et rester à l'écoute pour l'année prochaine! ️
Entreller: LouisfB01, également actif sur YouTube et en tant que podcasteur si vous voulez en savoir plus sur l'IA!
Abonnez-vous à ma newsletter - les dernières mises à jour de l'IA expliquées chaque semaine.
N'hésitez pas à m'envoyer un message intéressant que j'ai peut-être manqué pour ajouter à ce référentiel.
Tagez-moi sur Twitter @Whats_ai ou LinkedIn @Louis (What's Ai) Bouchard si vous partagez la liste! Et venez discuter avec nous dans notre communauté Discord Learn AI!
? Si vous souhaitez soutenir mon travail , vous pouvez vérifier pour parrainer ce référentiel ou me soutenir sur Patreon.
Vous avez très certainement vécu cette situation une fois: vous prenez une superbe photo avec votre ami, et quelqu'un photobomber derrière vous, ruinant votre futur message Instagram. Eh bien, ce n'est plus un problème. Soit c'est une personne ou une poubelle que vous avez oublié de retirer avant de prendre votre selfie qui ruine votre photo. Cette IA supprimera automatiquement l'objet ou la personne indésirable dans l'image et enregistrera votre message. C'est comme un concepteur de Photoshop professionnel dans votre poche, et avec un simple clic!
Cette tâche de supprimer une partie d'une image et de la remplacer par ce qui devrait apparaître derrière a été abordé par de nombreux chercheurs d'IA depuis longtemps. Cela s'appelle l'image entre la déception, et c'est extrêmement difficile ...
Vous avez très certainement vu des films comme le récent Captain Marvel ou Gemini Man où Samuel L Jackson et Will Smith semblaient sembler beaucoup plus jeunes. Cela nécessite des centaines sinon des milliers d'heures de travail auprès de professionnels éditant manuellement les scènes dans lesquelles il est apparu. Au lieu de cela, vous pouvez utiliser une IA simple et le faire en quelques minutes. En effet, de nombreuses techniques vous permettent d'ajouter des sourires, de vous faire paraître plus jeune ou plus âgé, tous à l'aide d'algorithmes basés sur l'IA. Il s'appelle les manipulations du visage basées sur l'IA dans des vidéos et voici la pointe actuelle en 2022!
Rendu neuronal. Le rendu neuronal est la capacité de générer un modèle photoréaliste dans l'espace comme celui-ci, à partir d'images de l'objet, de la personne ou de la scène d'intérêt. Dans ce cas, vous auriez une poignée d'images de cette sculpture et demanderiez à la machine de comprendre à quoi devrait ressembler l'objet de ces images dans l'espace. Vous demandez essentiellement à une machine de comprendre la physique et les formes des images. C'est assez facile pour nous car nous ne connaissons que le monde réel et les profondeurs, mais c'est un tout autre défi pour une machine qui ne voit que des pixels. C'est génial que le modèle généré soit précis avec des formes réalistes, mais qu'en est-il de la façon dont il se mélange dans la nouvelle scène? Et si les conditions d'éclairage varient dans les photos prises et que le modèle généré semble différent en fonction de l'angle que vous le regardez? Cela nous semblerait automatiquement bizarre et irréaliste. Ce sont les défis que Snapchat et l'Université de Californie du Sud ont attaqué dans cette nouvelle recherche.
Nous avons vu l'image de l'image, qui vise à supprimer un objet indésirable d'une image. Les techniques basées sur l'apprentissage automatique ne suppriment pas simplement les objets, mais ils comprennent également l'image et remplissent les parties manquantes de l'image avec à quoi devrait ressembler l'arrière-plan. Les avancées récentes sont incroyables, tout comme les résultats, et cette tâche d'intérêt peut être très utile pour de nombreuses applications telles que des publicités ou l'amélioration de votre future publication Instagram. Nous avons également couvert une tâche encore plus difficile: la détention vidéo, où le même processus est appliqué aux vidéos pour supprimer des objets ou des personnes.
Le défi avec les vidéos est accompagné de rester cohérent d'un cadre à l'autre sans artefacts buggy. Mais maintenant, que se passe-t-il si nous supprimons correctement une personne d'un film et que le son est toujours là, inchangé? Eh bien, nous pouvons entendre un fantôme et ruiner tout notre travail.
C'est là qu'une tâche que je n'ai jamais couverte sur ma chaîne se présente: la détérioration de la parole. Vous l'avez bien entendu, des chercheurs de Google viennent de publier un article visant à entreprendre un discours et, comme nous le verrons, les résultats sont assez impressionnants. D'accord, nous pourrions plutôt entendre que voir les résultats, mais vous obtenez le point. Il peut corriger votre grammaire, votre prononciation ou même supprimer le bruit de fond. Toutes les choses sur lesquelles je dois continuer à travailler, ou… utilisez simplement leur nouveau modèle… écoutez les exemples de ma vidéo!
Avez-vous également de vieilles photos de vous-même ou des proches qui ne vieillissent pas bien ou que vous, ou vos parents, pris avant que nous puissions produire des images de haute qualité? Je le fais, et j'avais l'impression que ces souvenirs étaient endommagés pour toujours. Garçon, étais-je mal!
Ce nouveau modèle d'IA entièrement gratuit peut réparer la plupart de vos anciennes photos en une fraction de seconde. Il fonctionne bien même avec des entrées très faibles ou de haute qualité, ce qui est généralement tout à fait le défi.
Le document de cette semaine appelé vers la restauration du visage aveugle réel avec un premier plan du visage génératif aborde la tâche de restauration de la photo avec des résultats exceptionnels. Ce qui est encore plus cool, c'est que vous pouvez l'essayer vous-même et à votre manière préférée. Ils ont open source leur code, créé une démo et des applications en ligne à essayer dès maintenant. Si les résultats que vous avez vus ci-dessus ne sont pas assez convaincants, regardez simplement la vidéo et faites-moi savoir ce que vous pensez dans les commentaires, je sais que cela vous épatera!
Comment voient les véhicules autonomes?
Vous avez probablement entendu parler de capteurs lidar ou d'autres caméras étranges qu'ils utilisent. Mais comment fonctionnent-ils, comment peuvent-ils voir le monde et que voient-ils exactement par rapport à nous? Il est essentiel de comprendre comment ils fonctionnent si nous voulons les mettre sur la route, principalement si vous travaillez au sein du gouvernement ou construisez les prochains réglementations. Mais aussi en tant que client de ces services.
Nous avons précédemment couvert la façon dont le pilote automatique de Tesla voit et fonctionne, mais ils sont différents des véhicules autonomes conventionnels. Tesla utilise uniquement des caméras pour comprendre le monde, tandis que la plupart d'entre eux, comme Waymo, utilisent des caméras régulières et des capteurs LiDAR 3D. Ces capteurs lidar sont assez simples à comprendre: ils ne produiront pas d'images comme des caméras régulières mais des nuages de points 3D. Les caméras Lidar mesurent la distance entre les objets, en calculant le temps de déplacement du laser d'impulsion qu'ils projettent vers l'objet.
Pourtant, comment pouvons-nous combiner efficacement ces informations et faire comprendre le véhicule? Et qu'est-ce que le véhicule finit par voir? Seulement des points partout? Est-ce suffisant pour conduire sur nos routes? Nous examinerons cela avec un nouveau document de recherche par Waymo et Google Research ...
Comme si prendre une photo n'était pas une prouesse technologique suffisamment difficile, nous faisons maintenant le contraire: modéliser le monde des images. J'ai couvert des modèles basés sur l'IA qui pourraient prendre des images et les transformer en scènes de haute qualité. Une tâche difficile qui consiste à prendre quelques images dans le monde de l'image bidimensionnel pour créer à quoi ressemblerait l'objet ou la personne dans le monde réel.
Prenez quelques photos et ayez instantanément un modèle réaliste à insérer dans votre produit. À quel point est-ce cool ?!
Les résultats se sont considérablement améliorés sur le premier modèle que j'ai couvert en 2020, appelé NERF. Et cette amélioration ne concerne pas seulement la qualité des résultats. Nvidia l'a rendu encore meilleur.
Non seulement que la qualité est comparable, sinon meilleure, mais elle est plus plus rapide de 1 '000 avec moins de deux ans de recherche.
L'année dernière, j'ai partagé Dall · E, un modèle incroyable d'Openai capable de générer des images à partir d'une entrée de texte avec des résultats incroyables. Il est maintenant temps pour son grand frère, Dall · e 2. Et vous ne croirez pas les progrès en une seule année! Dall · e 2 n'est pas seulement meilleur pour générer des images photoréalistes à partir de texte. Les résultats sont quatre fois la résolution!
Comme si ce n'était pas déjà assez impressionnant, le modèle récent a appris une nouvelle compétence; Image Intainting.
Dall · e pourrait générer des images à partir des entrées de texte.
Dall · e 2 peut le faire mieux, mais il ne s'arrête pas là. Il peut également modifier ces images et les rendre encore plus beaux! Ou ajoutez simplement une fonctionnalité que vous voulez comme des flamants en arrière-plan.
Cela semble intéressant? En savoir plus dans la vidéo ou en savoir plus ci-dessous!
Ce nouveau modèle de Google Research et Tel-Aviv University est incroyable. Vous pouvez le voir comme une profondeur très, très puissante qui peut tout faire.
Prenez une centaine de photos de toute personne et vous avez son personnage encodé pour réparer, modifier ou créer une image réaliste que vous voulez.
C'est à la fois incroyable et effrayant si vous me demandez, surtout lorsque vous regardez les résultats. Regardez la vidéo pour voir plus de résultats et comprendre comment fonctionne le modèle!
Découvrez le podcast What Is AI pour plus de contenu AI sous forme d'entretiens avec des experts dans le domaine! Un expert en IA invité et je couvrirai des sujets, des sous-champs et des rôles spécifiques liés à l'IA pour enseigner et partager les connaissances des personnes qui ont travaillé dur pour la rassembler.
Nous avons tous entendu parler de GPT-3 et avons une idée claire de ses capacités. Vous avez très certainement vu des applications nées strictement à cause de ce modèle, dont certaines que j'ai couvertes dans une vidéo précédente sur le modèle. GPT-3 est un modèle développé par OpenAI auquel vous pouvez accéder via une API payante mais n'a pas accès au modèle lui-même.
Ce qui rend GPT-3 si fort, c'est à la fois son architecture et sa taille. Il a 175 milliards de paramètres. Deux fois la quantité de neurones que nous avons dans notre cerveau! Cet immense réseau a été à peu près formé sur l'ensemble d'Internet pour comprendre comment nous écrivons, échangeons et comprenons le texte. Cette semaine, Meta a fait un grand pas en avant pour la communauté. Ils viennent de publier un modèle tout aussi puissant, sinon plus et qui l'a complètement open.
Blobgan permet une manipulation irréelle des images, rendu super facilement contrôlant facilement les blobs simples. Tous ces petits blobs représentent un objet, et vous pouvez les déplacer ou les rendre plus gros, plus petits ou même les supprimer, et il aura le même effet sur l'objet qu'il représente dans l'image. C'est tellement cool!
Comme les auteurs ont partagé leurs résultats, vous pouvez même créer des images nouvelles en duplication de blobs, en créant des images invisibles dans l'ensemble de données comme une pièce avec deux ventilateurs de plafond! Corrigez-moi si je me trompe, mais je pense que c'est l'un, sinon le premier, du papier pour rendre la modification des images aussi simple que de déplacer des taches et de permettre des modifications invisibles dans l'ensemble de données de formation.
Et vous pouvez réellement jouer avec celui-ci par rapport à certaines entreprises que nous connaissons tous! Ils ont partagé leur code publiquement et une démo Colab que vous pouvez essayer tout de suite. Encore plus excitant, c'est à quel point Blobgan fonctionne. En savoir plus dans la vidéo!
Gato de DeepMind vient d'être publié! C'est un seul transformateur qui peut jouer à des jeux Atari, une légende des images, discuter avec des gens, contrôler un vrai bras robotique, et plus encore! En effet, il est entraîné une fois et utilise les mêmes poids pour réaliser toutes ces tâches. Et selon DeepMind, ce n'est pas seulement un transformateur mais aussi un agent. C'est ce qui se passe lorsque vous mélangez les transformateurs avec des progrès sur des agents d'apprentissage en renforcement multi-tâches.
Gato est un agent multimodal. Cela signifie qu'il peut créer des légendes pour des images ou répondre aux questions en tant que chatbot. Vous diriez que GPT-3 peut déjà le faire, mais Gato peut faire plus… la multi-modalité vient du fait que Gato peut également jouer aux jeux ataris au niveau humain ou même faire des tâches réelles comme le contrôle des bras robotiques pour déplacer les objets précisément. Il comprend les mots, les images et même la physique ...
Si vous pensiez que Dall-E 2 avait d'excellents résultats, attendez de voir ce que ce nouveau modèle de Google Brain peut faire.
Dalle-E est incroyable mais manque souvent de réalisme, et c'est ce que l'équipe a attaqué avec ce nouveau modèle appelé Imagen.
Ils partagent beaucoup de résultats sur leur page de projet ainsi qu'une référence, qu'ils ont introduite pour comparer les modèles de texte à l'image, où ils surpassent clairement Dall-E 2, et des approches de génération d'images précédentes. En savoir plus dans la vidéo ...
Dalle Mini est incroyable - et vous pouvez l'utiliser!
Je suis sûr que vous avez vu des photos comme celles de votre fil Twitter ces derniers jours. Si vous vous demandiez ce qu'ils étaient, ce sont des images générées par une IA appelée Dall · e Mini. Si vous ne les avez jamais vus, vous devez regarder cette vidéo parce que vous manquez. Si vous vous demandez comment cela est possible, eh bien, vous êtes sur la vidéo parfaite et que vous connaissez la réponse en moins de cinq minutes.
Dalle Mini est une IA libre et open-source qui produit des images incroyables à partir des entrées de texte.
Le modèle le plus récent de Meta AI, appelé «aucune langue laissée», fait exactement cela: se traduit dans 200 langues différentes avec une qualité de pointe. Un modèle unique peut gérer 200 langues. À quel point est-ce incroyable?
Nous avons du mal à avoir d'excellents résultats strictement en anglais tandis que Meta s'attaque à 200 langues différentes avec le même modèle, et certaines des plus compliquées et moins représentées que même Google traduit avec ...
Ils reconstruisent le son à l'aide de caméras et un faisceau laser sur n'importe quelle surface vibrante, leur permettant d'isoler les instruments de musique, de se concentrer sur un haut-parleur spécifique, de supprimer les bruits ambiants et de nombreuses autres applications incroyables.
Make-A-Scene n'est pas «juste un autre Dalle». L'objectif de ce nouveau modèle n'est pas de permettre aux utilisateurs de générer des images aléatoires suivant l'invite de texte comme le fait Dalle - ce qui est vraiment cool - mais restreint le contrôle de l'utilisateur sur les générations.
Au lieu de cela, Meta voulait faire avancer l'expression créative, fusionnant cette tendance du texte à l'image avec les modèles de croquis à l'image précédents, conduisant à «Make-a-Scene»: un mélange fantastique entre le texte et la génération d'images conditionnée par des croquis.
Créez des modèles 3D déformables à partir d'images avec Banmo!
Qu'est-ce que tous les modèles d'images super puissants récents comme Dalle, Imagen ou MidJourney ont en commun? Outre leurs coûts informatiques élevés, leur énorme temps de formation et leur battage médiatique partagé, ils sont tous basés sur le même mécanisme: la diffusion. Les modèles de diffusion ont récemment obtenu des résultats de pointe pour la plupart des tâches d'image, notamment du texte à l'image avec Dalle, mais de nombreuses autres tâches liées à la génération d'images, comme la dénigmentation de l'image, le transfert de style ou la super-résolution de l'image.
? Si vous souhaitez soutenir mon travail , vous pouvez vérifier pour parrainer ce référentiel ou me soutenir sur Patreon.
La génération de graphiques de scène panoptique, ou PSG, est une nouvelle tâche de problème visant à générer une représentation de graphe plus complète d'une image ou d'une scène basée sur une segmentation panoptique plutôt que des boîtes de délimitation. Il peut être utilisé pour comprendre les images et générer des phrases décrivant ce qui se passe. C'est peut-être la tâche la plus difficile pour une IA! En savoir plus ci-dessous ...
Les modèles de texte à l'image comme Dalle ou la diffusion stable sont vraiment cool et nous permettent de générer des images fantastiques avec une entrée de texte simple. Mais serait-il encore plus cool de leur donner une image de vous et de lui demander de le transformer en peinture? Imaginez pouvoir envoyer une image d'un objet, d'une personne ou même de votre chat, et demandez au modèle de le transformer en un autre style comme se transformer en cyborg de votre style artistique préféré ou l'ajouter à une nouvelle scène.
Fondamentalement, à quel point serait-il cool d'avoir une version de Dalle que nous pouvons utiliser pour Photoshop nos images au lieu d'avoir des générations aléatoires? Avoir un Dalle personnalisé, tout en rendant beaucoup plus simple de contrôler la génération comme «une image vaut mille mots». Ce serait comme avoir un modèle Dalle qui est tout aussi personnalisé et addictif que l'algorithme Tiktok.
Eh bien, c'est ce sur quoi les chercheurs de l'Université de Tel Aviv et de Nvidia ont travaillé. Ils ont développé une approche pour conditionner les modèles de texte à l'image, comme la diffusion stable que j'ai couverte la semaine dernière, avec quelques images pour représenter tout objet ou concept à travers les mots que vous enverrez le long de vos images. Transformer l'objet de vos images d'entrée en tout ce que vous voulez!
Nous avons vu l'IA générer du texte, puis générer des images et plus récemment générer des vidéos courtes, même si elles ont encore besoin de travail. Les résultats sont incroyables lorsque vous pensez que personne n'est réellement impliqué dans le processus de création de ces pièces et qu'il ne doit être formé qu'une seule fois pour être utilisé par des milliers de personnes comme la diffusion stable. Pourtant, ces modèles comprennent-ils vraiment ce qu'ils font? Savent-ils quelle est la photo ou la vidéo qu'ils viennent de produire réellement? Qu'est-ce qu'un tel modèle comprend quand il voit une telle image ou, encore plus complexe, une vidéo?
Le nouveau modèle de Meta AI Make-A-Video est sorti et dans une seule phrase: il génère des vidéos à partir de texte. Il est non seulement capable de générer des vidéos, mais c'est aussi la nouvelle méthode de pointe, produisant des vidéos de meilleure qualité et plus cohérentes que jamais!
Avez-vous déjà rêvé d'un bon outil de transcription qui comprendrait avec précision ce que vous dites et l'écrire? Pas comme les outils automatiques de traduction YouTube… Je veux dire, ils sont bons mais loin d'être parfaits. Essayez-le et allumez la fonctionnalité pour la vidéo, et vous verrez de quoi je parle.
Heureusement, Openai vient de sortir et d'ouvrir un modèle d'IA assez puissant juste pour cela: Whisper.
Il comprend des choses que je ne peux même pas comprendre, ne pas être un orateur anglais natif (écouter dans la vidéo) et cela fonctionne aussi pour la traduction linguistique!
Nous avons vu des modèles capables de prendre une phrase et de générer des images. Ensuite, d'autres approches pour manipuler les images générées en apprenant des concepts spécifiques comme un objet ou un style particulier.
La semaine dernière, Meta a publié le modèle Make-A-Video que j'ai couvert, ce qui vous permet de générer une courte vidéo également à partir d'une phrase en texte. Les résultats ne sont pas encore parfaits, mais les progrès que nous avons réalisés sur le terrain depuis l'année dernière sont tout simplement incroyables.
Cette semaine, nous faisons un autre pas en avant.
Voici DreamFusion, un nouveau modèle de recherche Google qui peut comprendre une phrase suffisante pour en générer un modèle 3D. Vous pouvez le voir comme un dalle ou une diffusion stable mais en 3D.
Si vous pensez que les modèles récents de génération d'images comme Dalle ou la diffusion stable sont cool, vous ne croirez pas à quel point celui-ci est incroyable. "Celui-ci" est imaginaire. Imagic prend un tel modèle basé sur la diffusion capable de retirer du texte et de générer des images et d'adapter le modèle pour modifier les images. Vous pouvez générer une image, puis enseigner au modèle pour le modifier comme vous le souhaitez.
Ediffi, le modèle le plus récent de Nvidia, génère des images mieux et plus précises que toutes les approches précédentes comme Dalle 2 ou une diffusion stable. Ediffi comprend mieux le texte que vous envoyez et est plus personnalisable, ajoutant une fonctionnalité que nous avons vue dans un article précédent de Nvidia: The Painter Tool.
? Si vous souhaitez soutenir mon travail , vous pouvez vérifier pour parrainer ce référentiel ou me soutenir sur Patreon.
Générez de nouvelles cadres infinis comme si vous volez dans votre image!
Galactica est un modèle grand langage avec une taille comparable à GPT-3, mais spécialisée dans les connaissances scientifiques. Le modèle peut écrire des papiers blancs, des critiques, des pages Wikipedia et du code. Il sait comment citer et comment écrire des équations. C'est un gros problème pour l'IA et la science.
À partir d'une seule vidéo, ils peuvent synthétiser la personne qui parle pour à peu près n'importe quel mot ou phrase en temps réel avec une meilleure qualité. Vous pouvez animer une tête parlante après n'importe quelle piste audio en temps réel.
Chatgpt a repris Twitter et à peu près toute l'Internet, grâce à sa puissance et au potentiel de mème qu'il fournit. Nous savons tous comment pouvoir générer des mèmes est le meilleur moyen de conquérir Internet, et cela a donc fonctionné.
Depuis que vous avez vu de nombreux exemples, vous savez peut-être déjà que Chatgpt est une IA récemment publiée au public par Openai, avec laquelle vous pouvez discuter. Il est également appelé un chatbot, ce qui signifie que vous pouvez interagir avec elle, imitant une discussion humaine en tête-à-tête.
Ce que vous ne savez peut-être pas, c'est ce que c'est et comment cela fonctionne ... Regardez la vidéo ou lisez l'article ou le blog ci-dessous pour en savoir plus!
Que ce soit pour le plaisir dans un filtre Snapchat, pour un film, ou même pour supprimer quelques rides, nous avons tous une utilité en tête pour pouvoir changer notre âge dans une image.
Cela se fait généralement par des artistes qualifiés utilisant Photoshop ou un outil similaire pour modifier vos photos. Pire, dans une vidéo, ils doivent faire ce type d'édition manuelle pour chaque cadre! Imaginez simplement la quantité de travail nécessaire pour cela. Eh bien, voici une solution et un nouveau problème à cette situation ...?
Si vous souhaitez lire plus d'articles et avoir une vue plus large, voici un autre excellent référentiel pour vous couvrant 2021: 2021: Une année pleine de documents AI incroyables - une critique et n'hésitez pas à vous abonner à mon bulletin hebdomadaire et à rester à jour -Date avec de nouvelles publications dans l'IA pour 2022!
Tagez-moi sur Twitter @Whats_ai ou LinkedIn @Louis (What's Ai) Bouchard si vous partagez la liste!
[1] Suvorov, R., Logacheva, E., Mashikhin, A., Remizova, A., Ashukha, A., Silvestrov, A., Kong, N., Goka, H., Park, K. et Lempitsky, V., 2022. Résolution Robust GRAND MASCE INSEMBLATION DES CONVOLUTIONS DE FOURIER. Dans les actes de la conférence d'hiver IEEE / CVF sur les applications de la vision par ordinateur (pp. 2149–2159)., Https://arxiv.org/pdf/2109.07161.pdf
[2] Tzaban, R., Mokady, R., Gal, R., Bermano, AH et Cohen-Or, D., 2022. Cousez-le dans le temps: édition faciale basée sur Gan de vraies vidéos. https://arxiv.org/abs/2201.08361
[3] Kuang, Z., Olszewski, K., Chai, M., Huang, Z., Achlioptas, P. et Tulyakov, S., 2022. NEROIC: Rendu neuronal des objets des collections d'images en ligne. https://arxiv.org/pdf/2201.02533.pdf
[4] Borsos, Z., Sharifi, M. et Tagliasacchi, M., 2022. Speechpainter: détresse de discours conditionnée par texte. https://arxiv.org/pdf/2202.07273.pdf
[5] Wang, X., Li, Y., Zhang, H. and Shan, Y., 2021. Towards real-world blind face restoration with generative facial prior. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 9168–9178), https://arxiv.org/pdf/2101.04061.pdf
[6] Piergiovanni, AJ, Casser, V., Ryoo, MS and Angelova, A., 2021. 4d-net for learned multi-modal alignment. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 15435–15445), https://openaccess.thecvf.com/content/ICCV2021/papers/Piergiovanni_4D-Net_for_Learned_Multi-Modal_Alignment_ICCV_2021_paper.pdf.
[7] Thomas Muller, Alex Evans, Christoph Schied and Alexander Keller, 2022, "Instant Neural Graphics Primitives with a Multiresolution Hash Encoding", https://nvlabs.github.io/instant-ngp/assets/mueller2022instant.pdf
[8] A. Ramesh et al., 2022, "Hierarchical Text-Conditional Image Generation with CLIP Latents", https://cdn.openai.com/papers/dall-e-2.pdf
[9] Nitzan, Y., Aberman, K., He, Q., Liba, O., Yarom, M., Gandelsman, Y., Mosseri, I., Pritch, Y. and Cohen-Or, D., 2022. MyStyle: A Personalized Generative Prior. arXiv preprint arXiv:2203.17272.
[10] Zhang, Susan et al. “OPT: Open Pre-trained Transformer Language Models.” https://arxiv.org/abs/2205.01068
[11] Epstein, D., Park, T., Zhang, R., Shechtman, E. and Efros, AA, 2022. BlobGAN: Spatially Disentangled Scene Representations. arXiv preprint arXiv:2205.02837.
[12] Reed S. et al., 2022, Deemind: Gato - A generalist agent, https://storage.googleapis.com/deepmind-media/A%20Generalist%20Agent/Generalist%20Agent.pdf
[13] Saharia et al., 2022, Google Brain, Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding, https://gweb-research-imagen.appspot.com/paper.pdf
[14] Dayma, et al., 2021, DALL·E Mini, doi:10.5281/zenodo.5146400
[15] NLLB Team et al., 2022, No Language Left Behind: Scaling Human-Centered Machine Translation
[16] Sheinin, Mark and Chan, Dorian and O'Toole, Matthew and Narasimhan, Srinivasa G., 2022, Dual-Shutter Optical Vibration Sensing, Proc. IEEE CVPR.
[17] Gafni, O., Polyak, A., Ashual, O., Sheynin, S., Parikh, D. and Taigman, Y., 2022. Make-a-scene: Scene-based text-to-image generation with human priors. https://arxiv.org/pdf/2203.13131.pdf
[18] Yang, G., Vo, M., Neverova, N., Ramanan, D., Vedaldi, A. and Joo, H., 2022. Banmo: Building animatable 3d neural models from many casual videos. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 2863-2873).
[19] Rombach, R., Blattmann, A., Lorenz, D., Esser, P. and Ommer, B., 2022. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 10684–10695), https://arxiv.org/pdf/2112.10752.pdf
[20] Yang, J., Ang, YZ, Guo, Z., Zhou, K., Zhang, W. and Liu, Z., 2022. Panoptic Scene Graph Generation. arXiv preprint arXiv:2207.11247.
[21] Gal, R., Alaluf, Y., Atzmon, Y., Patashnik, O., Bermano, AH, Chechik, G. and Cohen-Or, D., 2022. An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion.
[22] Ni, B., Peng, H., Chen, M., Zhang, S., Meng, G., Fu, J., Xiang, S. and Ling, H., 2022. Expanding Language-Image Pretrained Models for General Video Recognition. arXiv preprint arXiv:2208.02816.
[23] Singer et al. (Meta AI), 2022, “MAKE-A-VIDEO: TEXT-TO-VIDEO GENERATION WITHOUT TEXT-VIDEO DATA”, https://makeavideo.studio/Make-A-Video.pdf
[24] Radford, A., Kim, JW, Xu, T., Brockman, G., McLeavey, C. and Sutskever, I., Robust Speech Recognition via Large-Scale Weak Supervision.
[25] Poole, B., Jain, A., Barron, JT and Mildenhall, B., 2022. DreamFusion: Text-to-3D using 2D Diffusion. arXiv preprint arXiv:2209.14988.
[26] Kawar, B., Zada, S., Lang, O., Tov, O., Chang, H., Dekel, T., Mosseri, I. and Irani, M., 2022. Imagic: Text-Based Real Image Editing with Diffusion Models. arXiv preprint arXiv:2210.09276.
[27] Balaji, Y. et al., 2022, eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers, https://arxiv.org/abs/2211.01324
[28] Li, Z., Wang, Q., Snavely, N. and Kanazawa, A., 2022. InfiniteNature-Zero: Learning Perpetual View Generation of Natural Scenes from Single Images. In European Conference on Computer Vision (pp. 515–534). Springer, Cham, https://arxiv.org/abs/2207.11148
[29] Taylor et al., 2022: Galactica: A Large Language Model for Science, https://galactica.org/
[30] Tang, J., Wang, K., Zhou, H., Chen, X., He, D., Hu, T., Liu, J., Zeng, G. and Wang, J., 2022. Real-time Neural Radiance Talking Portrait Synthesis via Audio-spatial Decomposition. arXiv preprint arXiv:2211.12368.
[31] OpenAI, 2022: ChatGPT: Optimizing Language Models for Dialogue, https://openai.com/blog/chatgpt/
[32] Loss et al., DisneyResearch, 2022: FRAN, https://studios.disneyresearch.com/2022/11/30/production-ready-face-re-aging-for-visual-effects/