Даже со всем, что произошло в мире в этом году, у нас все еще была возможность увидеть много удивительных исследований. Особенно в области искусственного интеллекта. Более того, в этом году было выделено много важных аспектов, таких как этические аспекты, важные предубеждения и многое другое. Искусственный интеллект и наше понимание человеческого мозга и его связь с ИИ постоянно развиваются, демонстрируя многообещающие приложения в будущем.
Вот самые интересные исследовательские работы года, если вы пропустили любой из них. Короче говоря, это в основном курируемый список последних прорывов в области искусственного интеллекта и науки о данных по дате релиза с четким объяснением видео, ссылкой на более подробную статью и код (если применимо). Наслаждайтесь чтением!
Полная ссылка на каждую статью указана в конце этого репозитория.
Содействие - Louisfb01
Подпишитесь на мою новостную рассылку - последние обновления в ИИ объясняются каждую неделю.
? Проверьте репо 2021!
Не стесняйтесь написать мне любые замечательные документы, которые я пропустил, чтобы добавить в это хранилище на [email protected]
Оставьте меня в Twitter @Whats_ai или LinkedIn @louis (что такое AI) Bouchard, если вы поделитесь списком!
10 лучших документов компьютерного зрения в 2020 году с видеороликами, статьями, кодом и справочностью бумаги.
Топ -10 документов компьютерного зрения 2020
? Если вы хотите поддержать мою работу и использовать W & B (бесплатно), чтобы отслеживать ваши эксперименты ML и сделать вашу работу воспроизводимой или сотрудничать с командой, вы можете попробовать его, следуя этому руководству! Поскольку большая часть кода здесь основана на Pytorch, мы подумали, что руководство QuickStart для использования W & B на Pytorch было бы наиболее интересным.
Следуйте этому быстрому руководству, используйте одни и те же строки W & B в вашем коде или любой из приведенных ниже репо, и проведите все ваши эксперименты автоматически в вашей учетной записи W & B! Настройка не займет более 5 минут, и он изменит вашу жизнь, как это было для меня! Вот более продвинутое руководство по использованию гиперпараметрических зачистков, если интересно :)
? Спасибо весам и предубеждениям за спонсирование этого хранилища и работы, которую я делал, и благодаря любому из вас, используя эту ссылку и попробовал W & B!
Эта 4 -я версия была недавно представлена в апреле 2020 года Алекси Бочковским и др. В статье «Yolov4: оптимальная скорость и точность обнаружения объектов». Основной целью этого алгоритма было сделать сверхбыстрый детектор объектов с высоким качеством с точки зрения точности.
Теперь вы можете генерировать высококачественные изображения лица из грубых или даже неполных эскизов с нулевыми навыками рисования, используя эту новую технику перевода с изображения на изображение! Если ваши навыки рисования столь же плохие, как и мои, вы даже можете настроить, насколько глаза, рот и нос повлияют на конечное изображение! Давайте посмотрим, действительно ли это работает и как они это сделали.
Gamegan, генеративная состязательная сеть, обученная 50 000 эпизодов Pac-Man, выпускает полностью функциональную версию Classic Dot-Munching без базового игрового двигателя.
Этот новый алгоритм превращает размытое изображение в изображение высокого разрешения! Он может занять изображение супер низкого разрешения 16x16 и превратить его в человеческое лицо высокой четкости 1080p! Ты мне не веришь? Тогда вы можете сделать так же, как я, и попробовать на себе менее чем за минуту! Но сначала давайте посмотрим, как они это сделали.
Эта новая модель преобразует код из языка программирования в другой без какого -либо надзора! Он может принять функцию Python и перевести ее в функцию C ++ и наоборот, без каких-либо предыдущих примеров! Он понимает синтаксис каждого языка и, таким образом, может, таким образом, обобщить на любой язык программирования! Посмотрим, как они это сделали.
Этот ИИ генерирует трехмерные реконструкции людей с высоким разрешением людей из 2D-изображений! Нужно только одно изображение, чтобы сгенерировать 3D -аватар, который выглядит так же, как и вы, даже сзади!
Исследователи в Disney разработали новый алгоритм обмена лица с высоким разрешением для визуальных эффектов в одноименном документе. Он способен представить фотореалистичные результаты при разрешении мегапикселя. Работая в Disney, они, безусловно, лучшая команда для этой работы. Их цель - поменять лицо целевого актера с актера источника, сохраняя при этом производительность актера. Это невероятно сложно и полезно во многих обстоятельствах, например, изменение возраста персонажа, когда актер недоступен, или даже когда он включает в себя трюк, которая была бы слишком опасной для главного актера. Текущие подходы требуют много анимации кадров и пост-обработки профессионалами.
Эта новая техника может изменить текстуру любого изображения, оставаясь реалистичным, используя полную неконтролируемую обучение! Результаты выглядят даже лучше, чем то, чего может достичь Ганс, будучи намного быстрее! Это может быть даже использовано для создания DeepFakes!
Нынешние современные системы НЛП пытаются обобщить, чтобы работать над различными задачами. Они должны быть точно настроены на наборах данных из тысяч примеров, в то время как люди должны видеть только несколько примеров для выполнения новой языковой задачи. Это было целью GPT-3, чтобы улучшить зависимость от задачи языковых моделей.
Этот ИИ может заполнить недостающие пиксели за удаленным движущимся объектом и реконструировать все видео с гораздо большей точностью и меньшей размытой, чем текущие современные подходы!
Хороший ИИ, как и тот, который используется в Gmail, может генерировать когерентный текст и закончить вашу фразу. Этот использует те же принципы, чтобы завершить изображение! Все сделано в неконтролируемом обучении без лейблов вообще не требуется!
Этот ИИ может карикатуры на любую картину или видео, которое вы кормите в желаемом стиле мультфильма! Давайте посмотрим, как это происходит, и несколько удивительных примеров. Вы даже можете попробовать это самостоятельно на сайте, который они создали, как я сделал для себя!
Эта модель, генерирующая лицо, способна перенести обычные фотографии лица в отличительные стили, такие как мультипликационный стиль Ли Мал-Айон, Симпсоны, Искусство и даже собаки! Лучшая вещь в этой новой технике - это то, что она очень простая и значительно превосходит предыдущие методы, используемые в Gans.
Алгоритм представляет позу и форму тела в виде параметрической сетки, которая может быть реконструирована из одного изображения и легко отработана. Учитывая изображение человека, он способен создавать синтетические изображения человека в разных позах или с различной одеждой, полученной из другого входного изображения.
Их цель состояла в том, чтобы предложить новую технику для 3D -позы и сетки с одного изображения RGB. Они назвали это i2l-meshnet. Где i2L означает изображение-ликсель. Точно так же, как воксель, объем + пиксель, представляет собой квантовую ячейку в трехмерном пространстве, они определили ликсель, линию и пиксель, как квантовую ячейку в одномерном пространстве. Их метод превосходит предыдущие методы, и код общедоступен!
https://github.com/mks0601/i2l-meshnet_release
Навигация по языку является широко изученной областью и очень сложной. Действительно, человеку может показаться простым пройти через дом, чтобы добраться до кофе, который вы оставили на тумбочке слева от вашей кровати. Но это совершенно другая история для агента, которая является автономной системой AI, использующей глубокое обучение для выполнения задач.
ECCV 2020 Best Paper Award идет в Princeton Team. Они разработали новую сквозную обучаемую модель для оптического потока. Их метод превосходит точность современных архитектур в нескольких наборах данных и гораздо более эффективен. Они даже сделали код доступным для всех на их GitHub!
Используя публичные фотографии туристов из Интернета, они смогли реконструировать несколько точек зрения сцены, сохраняя реалистичные тени и освещение! Это огромное развитие современных методов для фотореалистического рендеринга сцены, и их результаты просто удивительны.
Представьте себе, что у вас старые, сложенные и даже разорванные фотографии вашей бабушки, когда ей было 18 лет в высоком определении с нулевыми артефактами. Это называется старым восстановлением фотографий, и эта статья только что открыла совершенно новый путь для решения этой проблемы с использованием подхода глубокого обучения.
Исследователи из IST Австрии и Массачусетского технологического института успешно обучили автомобиль с самостоятельным вождением, используя новую систему искусственного интеллекта, основанную на мозге крошечных животных, таких как червей. Они достигли этого только с несколькими нейронами, способными контролировать самостоятельный автомобиль, по сравнению с миллионами нейронов, необходимых для популярных глубоких нейронных сетей, таких как концепции, Resnets или VGG. Их сеть смогла полностью контролировать автомобиль, используя только 75 000 параметров, состоящих из 19 контрольных нейронов, а не миллионов!
Команда исследователей из Adobe Research разработала новую технику синтеза трансформации по возрасту, основанную только на одной картине от человека. Он может генерировать картинки с продолжительностью срока службы с любой картинки, которую вы его отправили.
Deoldify - это метод раскраски и восстановления старых черно -белых изображений или даже пленочных кадров. Он был разработан и все еще обновляется только одним человеком Джейсоном Антиком. Сейчас это состояние искусства, чтобы раскрасить черно-белые изображения, и все с открытым исходным кодом, но мы вернемся к этому немного.
Как указывает имя, оно использует трансформаторы для создания точных описаний текста для каждой последовательности видео, используя как видео, так и общее описание его в качестве входов.
Этот метод перевода с изображением в раскраску имитирует настоящего художника по нескольким стилям, используя новый подход, который не включает в себя какую-либо архитектуру GAN, в отличие от всех текущих современных подходов!
Человеческий матинг - чрезвычайно интересная задача, в которой цель состоит в том, чтобы найти любого человека на картинке и удалить из него фон. Это действительно сложно достичь из -за сложности задачи, необходимого найти человека или людей с идеальным контуром. В этом посте я просматриваю лучшие методы, используемые за эти годы, и новый подход, опубликованный 29 ноября 2020 года. очень точнее.
С помощью этого нового метода обучения, разработанного Nvidia, вы можете обучить мощную генеративную модель с одной десятой из изображений! Сделать возможным много приложений, которые не имеют доступа к столько изображениям!
С помощью этого нового метода обучения, разработанного Nvidia, вы можете обучить мощную генеративную модель с одной десятой из изображений! Сделать возможным много приложений, которые не имеют доступа к столько изображениям!
Этот новый метод способен генерировать полную трехмерную сцену и способен решать освещение сцены. Все это с очень ограниченными затратами на вычисление и удивительными результатами по сравнению с предыдущими подходами.
? Проверьте репо 2021!
Оставьте меня в Twitter @Whats_ai или LinkedIn @louis (что такое AI) Bouchard, если вы поделитесь списком!
[1] A. Bochkovskiy, C.-Y. Wang и H.-iym Liao, Yolov4: оптимальная скорость и точность обнаружения объектов, 2020. Arxiv: 2004.10934 [Cs.cv].
[2] S.-Y. Chen, W. Su, L. Gao, S. Xia и H. Fu, "DeepfacedRawing: глубокое поколение изображений лиц из набросок", транзакции ACM на графике (Trootings of ACM Siggraph2020), Vol. 39, нет. 4, 72: 1–72: 16, 2020.
[3] SW Kim, Y. Zhou, J. Philion, A. Torralba и S. Fidler, «Учимся моделировать динамику средств с Gamegan», на конференции IEEE по компьютерному видению и распознаванию образцов (CVPR), июнь 2020 года.
[4] С. Менон, А. Дамиан, С. Ху, Н. Рави и С. Рудин, Импульс: самоотверженная фотография с помощью схемы с помощью латентного пространства исследований генеративных моделей, 2020. Arxiv: 2003.03808 [cs.cv].
[5] М.-А. Lachaux, B. Roziere, L. Chanussot и G. Lample, неконтролируемый перевод языков программирования, 2020. Arxiv: 2006.03511 [Cs.cl].
[6] S. Saito, T. Simon, J. Saragih и H. Joo, Pifuhd: неявная функция с выравниванием пикселей в пикселях для 3D-оцифровки человека с высоким разрешением, 2020. Arxiv: 2004.00452 [cs.cv].
[7] J. Naruniec, L. Helminger, C. Schroers и R. Weber, «Нейронные лица с высоким разрешением для визуальных эффектов», Computer Graphics Forum, Vol. 39, с. 173–184, июль 2020.doi: 10.1111/cgf.14062.
[8] Т. Парк, J.-Y. Zhu, O. Wang, J. Lu, E. Shechtman, Aa Efros, и R. Zhang, SwappapingAutoEncoder для глубоких манипуляций с изображением, 2020. Arxiv: 2007.00653 [Cs.cv].
[9] TB Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P.Shyam, G. Sastry, A. Askell, S. Agarwal, A. Herbert- Voss, G. Kreuger, T. Henighan, R. Child, A. Ramesh, DM Ziegler, J. Wu, C. Winter, C. Hesse, M. Chen, E. Sigler, M. Litwin, S.Gray, B. Chess, J. Clark, C. Berner, S. McCandlish, A. Radford, I. Sutskever и D. Amodei, «Языковые модели-это несколько выстрелов», 2020. Arxiv : 2005.14165 [Cs.Cl].
[10] Y. Zeng, J. Fu и H. Chao, Пространственные временные преобразования для обучения для видео для видео, 2020. Arxiv: 2007.10247 [CS.CV].
[11] М. Чен, А. Рэдфорд, Р. Чайлд, Дж. Ву, Х. Джун, Д. Луан и И. Сатскевер, «Генеративная предварительная подготовка из пикселей», в трудах 37 -й Международной конференции по машинному обучению, HD III и A. Singh, Eds., Ser. Труды исследований машинного обучения, вып. 119, виртуальный: PMLR, 13–18 июля 2020 г., с. 1691–1703. [Онлайн]. Доступно: http: //procecendings.mlr.press/v119/chen20s.html.
[12] Xinrui Wang и Jinze Yu, «Учимся мультипликации в мультфильме с использованием белого ящика». Конференция IEEE по компьютерному зрению и распознаванию моделей, июнь 2020 года.
[13] С. Мо, М. Чо и Дж. Шин, замораживают дискриминатор: простой базовый уровень для тонкой настройки Ганса, 2020. arxiv: 2002.10964 [CS.CV].
[14] К. Саркар, Д. Мехта, В. Сюй, В. Голиьяник и С. Теобальт, «Нейронная перепродажа людей с одного изображения», в Европейской конференции по компьютерному видению (ECCV), 2020.
[15] G. Moon и KM Lee, «I2L-Meshnet: сеть прогнозирования изображения-ликлель для точной трехмерной оценки позы человека и сетки из одного изображения RGB», в Европейской конференции по компьютерной службе (ECCV), 2020
[16] J. Krantz, E. Wijmans, A. Majumdar, D. Batra и S. Lee, «За пределами Nav-Graph: навигация по видению и языке в непрерывной среде», 2020. Arxiv: 2004.02857 [cs. РЕЗЮМЕ].
[17] Z. Teed and J. Deng, Плот: рецидивирующие полевые преобразования поля для оптического потока, 2020. Arxiv: 2003.12039 [Cs.cv].
[18] Z. Li, W. Sian, A. Davis и N. Snavely, «Crowdsampling Plenoptic Function», Inproc.uurean Conference of Computer Vision (ECCV), 2020.
[19] Z. Wan, B. Zhang, D. Chen, P. Zhang, D. Chen, J. Liao и F. Wen, Старое восстановление фото с помощью глубокого скрытого пространства перевод, 2020. Arxiv: 2009.07047 [Cs.cv ]
[20] Lechner, M., Hasani, R., Amini, A. et al. Политики нейронной трассы, обеспечивающие проверку автономии. Nat Mach Intell 2, 642–652 (2020). https://doi.org/10.1038/S42256-020-00237-3
[21] Р. Ор-Эль, С. Сенгупта, О. Фрид, Э. Шехтман и И. Кемелмахер-Шлайзерман, «Синтез трансформации жизни», в Слушаниях Европейской конференции по компьютерному зрению (ECCV), 2020.
[22] Джейсон Антик, создатель Deoldify, https://github.com/janty/deoldify
[23] С. Гинг, М. Зольфагхари, Х. Пирсиаваш и Т. Брокс, «Коот: кооперативный иерархический трансформатор для обучения видео-текстовым представлениям», в конференции по образованию нейронной информации, 2020.
[24] Z. Zou, T. Shi, S. Qiu, Y. Yuan и Z. Shi, Стилизованная нейронная живопись, 2020. Arxiv: 2011.08114 [CS.CV].
[25] Z. Ke, K. Li, Y. Zhou, Q. Wu, X. Mao, Q. Yan и RW Lau, "действительно ли зеленый экран действительно необходим для портретного матирования в реальном времени?" Arxiv, vol. ABS/2011.11961, 2020.
[26] T. Karras, M. Aittala, J. Hellsten, S. Laine, J. Lehtinen и T. Aila, Обучение генеративных состязательных сетей с ограниченными данными, 2020. Arxiv: 2006.06676 [CS.CV].
[27] Ja Wein, Dr Durran и R. Caruana, «Улучшение глобального прогноза погоды, управляемого данными с использованием глубоких сверточных нейронных сетей на кубической сфере», журнал о достижениях в моделировании Земли Systems, Vol. 12, нет. 9, сентябрь 2020 г., ISSN: 1942–2466.doi: 10.1029/2020ms002109
[28] PP Srinivasan, B. Deng, X. Zhang, M. Tancik, B. Mildenhall и JT Barron, «Never: Нейронные поля отражения и видимости для обоснованного и представления», в Arxiv, 2020.