В то время как мир все еще восстанавливается, исследования не замедлили его неистовые темпы, особенно в области искусственного интеллекта. Более того, в этом году было выделено многие важные аспекты, такие как этические аспекты, важные предубеждения, управление, прозрачность и многое другое. Искусственный интеллект и наше понимание человеческого мозга и его связи с ИИ постоянно развиваются, показывая многообещающие приложения, улучшающие качество нашей жизни в ближайшем будущем. Тем не менее, мы должны быть осторожны с какой технологией, которую мы выбираем для применения.
«Наука не может сказать нам, что мы должны делать, только то, что мы можем сделать».
- Жан-Поль Сартр, бытие и ничто
Вот курированный список последних прорывов в области искусственного интеллекта и Data Science по дате выпуска с четким видео объяснением, ссылкой на более подробную статью и код (если применимо). Наслаждайтесь чтением!
Полная ссылка на каждую статью указана в конце этого репозитория. Светь этот репозиторий, чтобы оставаться в курсе и следите за обновлениями на следующий год! ️
Содействие: Louisfb01, также активный на YouTube и в качестве подкастера, если вы хотите увидеть/услышать больше об ИИ!
Подпишитесь на мою новостную рассылку - последние обновления в ИИ объясняются каждую неделю.
Не стесняйтесь написать мне любую интересную статью, которую я мог упустить, чтобы добавить в этот репозиторий.
Оставьте меня в Twitter @Whats_ai или LinkedIn @louis (что такое AI) Bouchard, если вы поделитесь списком! И приходите поболтать с нами в нашем сообществе Discord Community Learn Ai!
? Если вы хотите поддержать мою работу , вы можете проверить, чтобы спонсировать этот репозиторий или поддержать меня в Patreon.
Вы наверняка испытали эту ситуацию один раз: вы сфотографируете со своим другом отлично сфотографировать, и кто -то фотобавляет за вами, разрушая ваш будущий пост в Instagram. Ну, это больше не проблема. Либо это человек, либо мусорная машина, которую вы забыли удалить, прежде чем снять селфи, который разрушает вашу фотографию. Этот ИИ просто автоматически удалит нежелательный объект или человека на изображении и сохранит ваш пост. Это как профессиональный дизайнер Photoshop в вашем кармане, и с простым щелчком!
Эта задача удаления части изображения и замены его на то, что должно появиться, была решена многими исследователями ИИ в течение долгого времени. Это называется изображением, и это чрезвычайно сложно ...
Вы наверняка видели такие фильмы, как недавний капитан Марвел или Человек -Близнецы, где Сэмюэль Л. Джексон и Уилл Смит выглядели так, как будто они были намного моложе. Это требует сотни, если не тысячи часов работы от профессионалов вручную, редактируя сцены, в которых он появился. Вместо этого вы можете использовать простой ИИ и сделать это в течение нескольких минут. Действительно, многие методы позволяют добавлять улыбки, заставлять вас выглядеть моложе или старше, автоматически используя алгоритмы на основе искусственного интеллекта. Он называется манипуляциями на лиц на основе искусственного интеллекта в видео, и вот текущее состояние в 2022 году!
Нейронное рендеринг. Нейронное рендеринг - это способность генерировать фотореалистическую модель в пространстве, как эта, из фотографий объекта, человека или интереса. В этом случае у вас будет несколько фотографий этой скульптуры и попросить машину понять, как объект на этих картинках должен выглядеть в космосе. Вы в основном просите машину понять физику и формы из изображений. Это довольно легко для нас, так как мы знаем только реальный мир и глубины, но это совсем другая проблема для машины, которая видит только пиксели. Здорово, что сгенерированная модель выглядит точно с реалистичными формами, но как насчет того, как она сочетается в новой сцене? А что, если условия освещения варьируются на фотографиях, и сгенерированная модель выглядит по -разному в зависимости от угла, который вы на него смотрите? Это автоматически показалось бы странным и нереалистичным для нас. Это проблемы Snapchat и Университет Южной Калифорнии, подвергшихся нападениям в этом новом исследовании.
Мы видели Image Inpainting, целью которого является удаление нежелательного объекта с изображения. Методы на основе машинного обучения не просто удаляют объекты, но они также понимают картинку и заполняют недостающие части изображения тем, как должен выглядеть фон. Недавние достижения невероятны, как и результаты, и эта задача Inpainting может быть весьма полезно для многих приложений, таких как реклама или улучшение вашего будущего поста Instagram. Мы также рассмотрели еще более сложную задачу: видео -инпостирование, где тот же процесс применяется к видео для удаления объектов или людей.
Задача с видео состоит в том, чтобы оставаться последовательным от кадра к кадру без каких -либо багги -артефактов. Но теперь, что произойдет, если мы правильно удалим человека из фильма, и звук все еще там, без изменений? Ну, мы можем услышать призрака и разрушить всю нашу работу.
Здесь возникает задача, которую я никогда не выполнял на своем канале: речь. Вы слышали это правильно, исследователи из Google только что опубликовали статью, направленную на речь в инпайнте, и, как мы увидим, результаты довольно впечатляющие. Хорошо, мы могли бы скорее услышать, чем увидеть результаты, но вы поняли. Это может исправить вашу грамматику, произношение или даже удалить фоновый шум. Все, над чем мне определенно нужно продолжать работать, или ... просто используйте их новую модель ... послушайте примеры в моем видео!
У вас также есть старые фотографии себя или близкие, которые не стали хорошо, или вы, или ваши родители, сделали, прежде чем мы сможем создавать высококачественные изображения? Я делаю, и я чувствовал, что эти воспоминания были повреждены навсегда. Мальчик, я был неправ!
Эта новая и совершенно бесплатная модель ИИ может исправить большинство ваших старых картинок за долю секунды. Это хорошо работает даже с очень низкими или высококачественными входами, что, как правило, является довольно сложной задачей.
Бумага на этой неделе, призванная к восстановлению слепых лиц в реальном мире с генеративным лицевым предварительным решением задания восстановления фотографий с выдающимися результатами. Что еще круче, так это то, что вы можете попробовать это самостоятельно и в своем предпочтительном способе. Они открыли свой код, создали демонстрационные и онлайн-приложения для вас, чтобы попробовать прямо сейчас. Если результаты, которые вы видели выше, недостаточно убедительны, просто посмотрите видео и дайте мне знать, что вы думаете в комментариях, я знаю, что это поразит ваш разум!
Как видят автономные транспортные средства?
Вы, наверное, слышали о датчиках LiDAR или других странных камерах, которые они используют. Но как они работают, как они могут видеть мир и что они видят в точности по сравнению с нами? Понимание того, как они работают, важно, если мы хотим поставить их на дорогу, в первую очередь, если вы работаете в правительстве или строите следующие правила. Но и как клиент этих услуг.
Ранее мы освещали, как Tesla Autopilot видит и работает, но они отличаются от обычных автономных транспортных средств. Tesla использует только камеры, чтобы понять мир, в то время как большинство из них, такие как Waymo, используют обычные камеры и 3D -датчики LIDAR. Эти датчики лидара довольно просты для понимания: они не будут производить изображения, такие как обычные камеры, кроме трехмерных облаков. Лидарные камеры измеряют расстояние между объектами, вычислив время прохождения импульсного лазера, которое они проецируют на объект.
Тем не менее, как мы можем эффективно объединить эту информацию и попросить транспортного средства понять ее? А что в конечном итоге видит автомобиль? Только точки везде? Достаточно ли ездить по нашим дорогам? Мы рассмотрим это с помощью новой исследовательской работы от Waymo и Google Research ...
Как будто сфотографировать не было достаточно сложным технологическим мастерством, мы сейчас делаем наоборот: моделирование мира с фотографий. Я освещал удивительные модели на основе искусственного интеллекта, которые могут делать изображения и превратить их в высококачественные сцены. Сложная задача, которая состоит в том, чтобы снять несколько изображений в 2-мерном мире картинок, чтобы создать, как объект или человек будут выглядеть в реальном мире.
Сделайте несколько снимков и сразу же получите реалистичную модель для внедрения в ваш продукт. Насколько это круто?!
Результаты значительно улучшились после первой модели, которую я рассмотрел в 2020 году, называемую NERF. И это улучшение не только о качестве результатов. Нвидия сделала это еще лучше.
Мало того, что качество сопоставимо, если не лучше, но оно более чем в 1 000 раз быстрее с менее чем двумя годами исследований.
В прошлом году я поделился Dall · E, удивительной моделью OpenAI, способной генерировать изображения с текстового ввода с невероятными результатами. Пришло время для его старшего брата, Далл · е 2. И вы не поверите прогрессу за один год! Dall · E 2 не только лучше генерирует фотореалистические изображения из текста. Результаты в четыре раза превышают разрешение!
Как будто это уже не было достаточно впечатляющим, недавняя модель изучила новый навык; Изображение внедорожника.
Dall · E может генерировать изображения из текстовых входов.
Dall · E 2 может сделать это лучше, но на этом не останавливается. Это также может редактировать эти изображения и заставить их выглядеть еще лучше! Или просто добавьте функцию, которую вы хотите, как фламинго в заднем плане.
Звучит интересно? Узнайте больше в видео или прочитайте больше ниже!
Эта новая модель Google Research и Tel-Aviv University невероятна. Вы можете видеть это как очень, очень мощную глубокую черту, которая может сделать что угодно.
Сделайте сотню снимков любого человека, и у вас есть его персовая, кодируемая, чтобы исправить, редактировать или создать любую реалистичную картину, которую вы хотите.
Это удивительно и страшно, если вы спросите меня, особенно когда вы смотрите на результаты. Посмотрите видео, чтобы увидеть больше результатов и понять, как работает модель!
Проверьте подкаст What Are AI, чтобы узнать больше о содержании ИИ в виде интервью с экспертами в этой области! Приглашенный эксперт по ИИ и я рассмотрим конкретные темы, подполя и роли, связанные с ИИ, чтобы преподавать и делиться знаниями от людей, которые усердно работали, чтобы собрать его.
Мы все слышали о GPT-3 и имеем четкое представление о его возможностях. Вы наверняка видели некоторые приложения, рожденные исключительно из -за этой модели, некоторые из которых я рассказал в предыдущем видео о модели. GPT-3-это модель, разработанная OpenAI, к которой вы можете получить доступ через платный API, но не имеете доступа к самой модели.
То, что делает GPT-3 таким сильным,-это как ее архитектура, так и размер. Он имеет 175 миллиардов параметров. Вдвое больше нейронов, которые у нас есть в мозге! Эта огромная сеть была в значительной степени обучена всему Интернету, чтобы понять, как мы пишем, обмениваемся и понимаем текст. На этой неделе Meta сделала большой шаг вперед для сообщества. Они только что выпустили модель, которая такая же мощная, если не больше, и полностью ее открыли.
Blobgan допускает нереальные манипулирование изображениями, что делает супер легко управлять простыми капли. Все эти небольшие каждые каждые каждые представляют объект, и вы можете переместить его или сделать их больше, меньше или даже удалить их, и это будет иметь одинаковое влияние на объект, который он представляет на изображении. Это так круто!
Как авторы поделились в своих результатах, вы можете даже создавать новые изображения, дублируя капли, создавая невидимые изображения в наборе данных, как комната с двумя потолочными вентиляторами! Поправьте меня, если я ошибаюсь, но я считаю, что это один из, если не первая, бумага, которая сделает модификацию изображений такими же простыми, как движущиеся капли вокруг и разрешающие изменения, которые были невидимы в учебном наборе данных.
И вы можете играть с этим по сравнению с некоторыми компаниями, которые мы все знаем! Они публично поделились своим кодом и демонстрацией колаба, которую вы можете попробовать сразу. Еще более интересно, как работает Blobgan. Узнайте больше в видео!
Гато из DeepMind был только что опубликован! Это единственный трансформатор, который может играть в игры Atari, подписать изображения, общаться с людьми, контролировать настоящую роботизированную руку и многое другое! Действительно, он тренируется один раз и использует одни и те же веса для выполнения всех этих задач. И согласно DeepMind, это не только трансформатор, но и агент. Это то, что происходит, когда вы смешиваете трансформаторы с прогрессом в области многозадачных агентов обучения.
Гато-многомодальный агент. Это означает, что он может создавать подписи для изображений или отвечать на вопросы как чат -бот. Вы бы сказали, что GPT-3 уже может сделать это, но Gato может сделать больше ... многомодальность происходит из-за того, что Gato также может играть в игры Atari на уровне человека или даже выполнять реальные задачи, такие как управление роботизированными руками Переместите объекты точно. Он понимает слова, изображения и даже физика ...
Если вы думали, что у Dall-E 2 были отличные результаты, подождите, пока вы не увидите, что может сделать эта новая модель из Google Brain.
Dalle-e удивителен, но часто не хватает реализма, и это то, что команда атаковала с этой новой моделью под названием Imagen.
Они разделяют много результатов на своей странице проекта, а также эталон, который они представили для сравнения моделей текста к изображению, где они явно превосходят Dall-E 2 и предыдущие подходы генерации изображений. Узнайте больше в видео ...
Dalle Mini удивителен - и вы можете его использовать!
Я уверен, что в последние несколько дней вы видели такие фотографии в вашем ленте в Твиттере. Если вам интересно, что они были, это изображения, сгенерированные ИИ под названием Dall · E Mini. Если вы никогда не видели их, вам нужно посмотреть это видео, потому что вы пропускаете. Если вы удивляетесь, как это возможно, вы находитесь на идеальном видео и узнаете ответ менее чем за пять минут.
Dalle Mini-это бесплатный ИИ с открытым исходным кодом, который создает удивительные изображения из текстовых входов.
Самая последняя модель Meta AI под названием «No Language Offeer позади» делает именно это: переводится на 200 различных языков с самым современным качеством. Одна модель может справиться с 200 языками. Насколько это невероятно?
Нам трудно иметь отличные результаты строго на английском языке, в то время как Meta решает 200 различных языков с одной и той же моделью, и некоторые из самых сложных и менее представленных, которые даже Google переводит борьбу с ...
Они реконструируют звук, используя камеры и лазерный луч на любой вибрирующей поверхности, позволяя им изолировать музыкальные инструменты, сосредоточиться на конкретном динамике, удалять атмосферные шумы и много других удивительных применений.
Make-a-Scene-это не «просто еще одна далле». Цель этой новой модели не позволяет пользователям генерировать случайные изображения после текстового приглашения, как это делает Dalle - что действительно круто - но ограничивает пользовательский элемент управления поколениями.
Вместо этого Meta хотела продвинуть творческое выражение вперед, объединив эту тенденцию текста к изображению с предыдущими моделями эскиза к изображению, что приводит к «Make-A-Scene»: фантастическую смесь между текстом и генерацией изображений, связанных с эскизом.
Создайте деформируемые 3D -модели с изображений с Banmo!
Что общего у всех недавних супер мощных моделей изображений, таких как Dalle, Imagen или Midjourney? Помимо их высоких затрат на вычислитель, огромное время обучения и общую ажиотаж, все они основаны на одном механизме: диффузии. Диффузионные модели недавно достигли самых современных результатов для большинства задач изображения, включая текстовое изображение с Dalle, но также многие другие задачи, связанные с генерацией, также, такие как внедрение изображения, передача стиля или супер-разрешение изображения.
? Если вы хотите поддержать мою работу , вы можете проверить, чтобы спонсировать этот репозиторий или поддержать меня в Patreon.
Генерация графа паноптического сцены, или PSG, представляет собой новую задачу, направленную на создание более полного представления графика изображения или сцены на основе паноптической сегментации, а не ограничивающих ящиков. Его можно использовать для понимания изображений и создания предложений, описывающих, что происходит. Это может быть самой сложной задачей для ИИ! Узнайте больше ниже ...
Модели текста до изображения, такие как Dalle или стабильная диффузия, действительно крутые и позволяют нам генерировать фантастические изображения с помощью простого текстового ввода. Но было бы даже круче дать им вас снимки и попросить ее превратить в картину? Представьте себе, что вы можете отправить какую -либо фотографию объекта, человека или даже вашей кошки, и попросите модель превратить ее в другой стиль, например, превратить себя в киборг в ваш предпочтительный художественный стиль или добавить ее в новую сцену.
По сути, насколько круто было бы иметь версию Dalle, которую мы можем использовать для Photoshop наши изображения вместо того, чтобы иметь случайные поколения? Наличие персонализированной Dalle, при этом делает его гораздо более простым для управления поколением как «изображение стоит тысячи слов». Это было бы похоже на то, чтобы иметь модель Dalle, которая так же персонализированная и привыкающая, как и алгоритм Tiktok.
Ну, это то, над чем работали исследователи из Университета Тель -Авива и Нвидии. Они разработали подход для обучения моделей текста до изображения, таких как стабильная диффузия, которую я рассмотрел на прошлой неделе, с несколькими изображениями, чтобы представлять любой объект или концепцию с помощью слов, которые вы отправите вдоль ваших изображений. Преобразование объекта ваших входных изображений в все, что вы хотите!
Мы видели, как ИИ генерирует текст, затем генерировал изображения, а совсем недавно даже генерировал короткие видео, хотя им все еще нужна работа. Результаты невероятны, когда вы думаете, что никто на самом деле не участвует в процессе создания этих произведений, и его нужно только один раз, чтобы использовать только тысячи людей, таких как стабильная диффузия. Тем не менее, действительно ли эти модели понимают, что они делают? Знают ли они, что на самом деле представляет картинка или видео, которое они только что продюсировали? Что такая модель понимает, когда видит такую картину или, что еще более сложно, видео?
Новая модель Meta AI Make-A-Video вышла и в одном предложении: она генерирует видео из текста. Он не только способен генерировать видео, но и новый современный метод, производящий более высокий качество и более последовательные видео, чем когда-либо прежде!
Вы когда -нибудь мечтали о хорошем инструменте транскрипции, который точно поймет, что вы говорите, и запишите его? Не так, как автоматические инструменты перевода YouTube ... Я имею в виду, они хороши, но далеко не идеальны. Просто попробуйте его и включите функцию для видео, и вы увидите, о чем я говорю.
К счастью, Openai только что выпустил и открыл довольно мощную модель ИИ только для этого: Whisper.
Он понимает вещи, которые я даже не могу понять, а не носитель английского языка (послушайте в видео), и это работает и для языкового перевода!
Мы видели модели, которые могут взять предложение и генерировать изображения. Затем другие подходы к манипулированию сгенерированными изображениями, изучая конкретные концепции, такие как объект или конкретный стиль.
На прошлой неделе Meta опубликовала модель Make-A-A-Video, которую я освещал, которая позволяет вам генерировать короткое видео также из текстового предложения. Результаты еще не идеальны, но прогресс, который мы достигли в области с прошлого года, просто невероятный.
На этой неделе мы делаем еще один шаг вперед.
Вот DreamFusion, новая модель Google Research, которая может понять предложение достаточно, чтобы генерировать его 3D -модель. Вы можете видеть это как далле или стабильную диффузию, но в 3D.
Если вы думаете, что недавние модели генерации изображений, такие как Dalle или стабильная диффузия, классные, вы просто не поверите, насколько это невероятно. «Этот» - это воображение. Imagic принимает такую модель на основе диффузии, способную выбирать текст и генерировать из нее изображения и адаптирует модель для редактирования изображений. Вы можете сгенерировать изображение, а затем научить модель редактировать ее любым способом.
Ediffi, последняя модель Nvidia, генерирует более выглядящие и более точные изображения, чем все предыдущие подходы, такие как Dalle 2 или стабильная диффузия. Ediffi лучше понимает отправленный вами текст, и он более настраивается, добавив функцию, которую мы видели в предыдущей статье от Nvidia: The Painter Tool.
? Если вы хотите поддержать мою работу , вы можете проверить, чтобы спонсировать этот репозиторий или поддержать меня в Patreon.
Создайте бесконечные новые рамы, как будто вы будете летать на своем изображении!
Galactica-это большая языковая модель с размером, сравнимым с GPT-3, но специализируется на научных знаниях. Модель может писать белые пейзажи, обзоры, страницы Википедии и код. Он знает, как цитировать и как писать уравнения. Это своего рода большое дело для ИИ и науки.
Из одного видео они могут синтезировать человека, разговаривающего практически за любое слово или предложение в режиме реального времени с лучшим качеством. Вы можете анимировать говорящую голову после любого аудио-трека в режиме реального времени.
CHATGPT захватил Twitter и почти весь Интернет, благодаря своей власти и потенциалу мема, который он предоставляет. Мы все знаем, как способность генерировать мемы - лучший способ победить в Интернете, и поэтому это сработало.
Поскольку вы видели многочисленные примеры, вы, возможно, уже знаете, что CHATGPT является ИИ, недавно выпущенным публике от OpenAI, с которым вы можете поговорить. Он также называется чат-ботом, что означает, что вы можете взаимодействовать с ним в разговорной разговоре, подражая человеческому обсуждению один на один.
То, что вы, возможно, не знаете, так это то, что это такое и как оно работает ... посмотрите видео или прочитайте статью или сообщение в блоге ниже, чтобы узнать больше!
Будь то веселье в фильтре Snapchat, для фильтра для фильтра или даже для удаления нескольких морщин, мы все имеем в виду утилиту, чтобы изменить наш возраст на картинке.
Обычно это делается квалифицированными художниками, использующими Photoshop или аналогичный инструмент для редактирования ваших фотографий. Хуже всего, в видео они должны делать это ручное редактирование для каждого кадра! Представьте себе, какой объем работы, необходимый для этого. Ну, вот решение и новая проблема в этой ситуации ...?
Если вы хотите прочитать больше документов и иметь более широкий взгляд, вот еще один отличный репозиторий для вас, охватывающий 2021: 2021 год: год, полный удивительных документов искусственного интеллекта- обзор и не стесняйтесь подписаться на мою еженедельную рассылку и оставаться в курсе -Тате с новыми публикациями в ИИ на 2022 год!
Оставьте меня в Twitter @Whats_ai или LinkedIn @louis (что такое AI) Bouchard, если вы поделитесь списком!
[1] Суворов Р., Логачева Э., Машихин А., Ремизова А., Ашуха А., Сильвесторова А., Конг Н., Гока Х., Парк К. и Лемпсицкий. V., 2022. РЕЗОЛЮЦИЯ-РОБАНСКАЯ МАСКАЯ МАСКА ВНАПИНАЦИЯ С ПЕРЕКЛЮЧЕНИЯМИ ФЕРИМА. В материалах зимней конференции IEEE/CVF по приложениям Computer Vision (стр. 2149–2159)., Https://arxiv.org/pdf/2109.07161.pdf
[2] Tzaban, R., Mokady R., Gal, R., Bermano, AH и Cohen-OR, D., 2022. Зашивайте его вовремя: редактирование лиц на лице. https://arxiv.org/abs/2201.08361
[3] Куанг З., Олшевски К., Чай М., Хуанг З., Ахлиоптас П. и Туляков С., 2022. Нероик: Нейронное рендеринг объектов из онлайн -коллекций изображений. https://arxiv.org/pdf/2201.02533.pdf
[4] Borsos, Z., Sharifi, M. and Tagliasacchi, M., 2022. Speechpainter: речевая речь. https://arxiv.org/pdf/2202.07273.pdf
[5] Wang, X., Li, Y., Zhang, H. and Shan, Y., 2021. На пути к восстановлению слепых лиц в реальном мире. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию шаблонов (стр. 9168–9178), https://arxiv.org/pdf/2101.04061.pdf
[6] Piergiovanni, AJ, Casser, V., Ryoo, MS и Angelova, A., 2021. 4D-сеть для изученного мультимодального выравнивания. В материалах Международной конференции IEEE/CVF по компьютерному видению (стр. 15435–15445), https://openaccess.thecvf.com/content/iccv2021/papers/piergiovanni_4d-net_for_learned_multi-modal_alignment_iccv_2021_paper_fure_learned_multi-modal_alignment_iccv_2021_paper_for_learned_multi-modal_alignment_cv_2021_pare_for_learne_multi-modal_alignment_.
[7] Thomas Muller, Alex Evans, Christoph Schied and Alexander Keller, 2022, "Instant Neural Graphics Primitives with a Multiresolution Hash Encoding", https://nvlabs.github.io/instant-ngp/assets/mueller2022instant.pdf
[8] A. Ramesh et al., 2022, "Hierarchical Text-Conditional Image Generation with CLIP Latents", https://cdn.openai.com/papers/dall-e-2.pdf
[9] Nitzan, Y., Aberman, K., He, Q., Liba, O., Yarom, M., Gandelsman, Y., Mosseri, I., Pritch, Y. and Cohen-Or, D., 2022. MyStyle: A Personalized Generative Prior. arXiv preprint arXiv:2203.17272.
[10] Zhang, Susan et al. “OPT: Open Pre-trained Transformer Language Models.” https://arxiv.org/abs/2205.01068
[11] Epstein, D., Park, T., Zhang, R., Shechtman, E. and Efros, AA, 2022. BlobGAN: Spatially Disentangled Scene Representations. arXiv preprint arXiv:2205.02837.
[12] Reed S. et al., 2022, Deemind: Gato - A generalist agent, https://storage.googleapis.com/deepmind-media/A%20Generalist%20Agent/Generalist%20Agent.pdf
[13] Saharia et al., 2022, Google Brain, Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding, https://gweb-research-imagen.appspot.com/paper.pdf
[14] Dayma, et al., 2021, DALL·E Mini, doi:10.5281/zenodo.5146400
[15] NLLB Team et al., 2022, No Language Left Behind: Scaling Human-Centered Machine Translation
[16] Sheinin, Mark and Chan, Dorian and O'Toole, Matthew and Narasimhan, Srinivasa G., 2022, Dual-Shutter Optical Vibration Sensing, Proc. IEEE CVPR.
[17] Gafni, O., Polyak, A., Ashual, O., Sheynin, S., Parikh, D. and Taigman, Y., 2022. Make-a-scene: Scene-based text-to-image generation with human priors. https://arxiv.org/pdf/2203.13131.pdf
[18] Yang, G., Vo, M., Neverova, N., Ramanan, D., Vedaldi, A. and Joo, H., 2022. Banmo: Building animatable 3d neural models from many casual videos. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 2863-2873).
[19] Rombach, R., Blattmann, A., Lorenz, D., Esser, P. and Ommer, B., 2022. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 10684–10695), https://arxiv.org/pdf/2112.10752.pdf
[20] Yang, J., Ang, YZ, Guo, Z., Zhou, K., Zhang, W. and Liu, Z., 2022. Panoptic Scene Graph Generation. arXiv preprint arXiv:2207.11247.
[21] Gal, R., Alaluf, Y., Atzmon, Y., Patashnik, O., Bermano, AH, Chechik, G. and Cohen-Or, D., 2022. An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion.
[22] Ni, B., Peng, H., Chen, M., Zhang, S., Meng, G., Fu, J., Xiang, S. and Ling, H., 2022. Expanding Language-Image Pretrained Models for General Video Recognition. arXiv preprint arXiv:2208.02816.
[23] Singer et al. (Meta AI), 2022, “MAKE-A-VIDEO: TEXT-TO-VIDEO GENERATION WITHOUT TEXT-VIDEO DATA”, https://makeavideo.studio/Make-A-Video.pdf
[24] Radford, A., Kim, JW, Xu, T., Brockman, G., McLeavey, C. and Sutskever, I., Robust Speech Recognition via Large-Scale Weak Supervision.
[25] Poole, B., Jain, A., Barron, JT and Mildenhall, B., 2022. DreamFusion: Text-to-3D using 2D Diffusion. arXiv preprint arXiv:2209.14988.
[26] Kawar, B., Zada, S., Lang, O., Tov, O., Chang, H., Dekel, T., Mosseri, I. and Irani, M., 2022. Imagic: Text-Based Real Image Editing with Diffusion Models. arXiv preprint arXiv:2210.09276.
[27] Balaji, Y. et al., 2022, eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers, https://arxiv.org/abs/2211.01324
[28] Li, Z., Wang, Q., Snavely, N. and Kanazawa, A., 2022. InfiniteNature-Zero: Learning Perpetual View Generation of Natural Scenes from Single Images. In European Conference on Computer Vision (pp. 515–534). Springer, Cham, https://arxiv.org/abs/2207.11148
[29] Taylor et al., 2022: Galactica: A Large Language Model for Science, https://galactica.org/
[30] Tang, J., Wang, K., Zhou, H., Chen, X., He, D., Hu, T., Liu, J., Zeng, G. and Wang, J., 2022. Real-time Neural Radiance Talking Portrait Synthesis via Audio-spatial Decomposition. arXiv preprint arXiv:2211.12368.
[31] OpenAI, 2022: ChatGPT: Optimizing Language Models for Dialogue, https://openai.com/blog/chatgpt/
[32] Loss et al., DisneyResearch, 2022: FRAN, https://studios.disneyresearch.com/2022/11/30/production-ready-face-re-aging-for-visual-effects/