尽管世界仍在恢复,但研究并没有减慢其疯狂的步伐,尤其是在人工智能领域。更重要的是,今年强调了许多重要方面,例如道德方面,重要的偏见,治理,透明度等。人工智能以及我们对人脑及其与AI的联系的理解正在不断发展,显示出令人鼓舞的应用,在不久的将来改善了我们生活的质量。不过,我们应该谨慎使用我们选择采用哪种技术。
“科学不能告诉我们我们应该做什么,只有我们能做什么。”
- 让·保罗·萨特(Jean-Paul Sartre),《存在与虚无》
这是通过发布日期的AI和数据科学中最新突破的精心策划列表,并具有清晰的视频说明,链接到更深入的文章以及代码(如果适用)。享受阅读!
对每篇论文的完整引用在此存储库的末尾列出。明星这个存储库保持最新状态,并保持明年的关注!配x
维护者:LouisfB01,也在YouTube上活跃,如果您想查看/听到有关AI的更多信息,也可以作为播客!
订阅我的时事通讯 - AI中的最新更新每周都会解释。
随意向我发消息,我可能错过的任何有趣的论文都会添加到此存储库中。
如果您共享列表,请在Twitter @Whats_ai或LinkedIn @Lououis(What是AI)上标记我!并在我们的学习AI中与我们聊天!
?如果您想支持我的工作,则可以检查以赞助此存储库或在Patreon上支持我。
您肯定会曾经经历过这种情况:您与您的朋友合影,有人在您身后拍摄,破坏了您未来的Instagram帖子。好吧,这不再是问题。要么是一个人或垃圾桶,您忘了在拍摄自己的照片之前忘记删除。此AI将仅自动删除图像中不希望的对象或人员并保存您的帖子。就像您口袋里的专业Photoshop设计师一样,简单地单击!
许多AI研究人员已经解决了这项删除一部分图像并替换应该出现的内容的任务。它被称为图像介绍,这是极具挑战性的...
您当然可以看过电影,例如最近的Marvel或Gemini Man,Samuel L Jackson和Will Smith看起来好像年轻得多。这需要数百万小时甚至数千个小时的工作,专业人士手动编辑他出现的场景。相反,您可以使用一个简单的AI并在几分钟之内进行。确实,许多技术使您可以添加微笑,使您看起来更年轻或更老,所有这些都使用基于AI的算法自动自动。它被称为视频中的基于AI的面部操作,这是2022年当前的最新技术!
神经渲染。神经渲染是从像对象,人或感兴趣的场景的图片一样,能够在空间中产生一个现实的模型。在这种情况下,您将有几张雕塑的图片,并要求机器了解这些图片中的对象在太空中的样子。您基本上要求一台机器了解物理学并从图像中塑造。这对我们来说很容易,因为我们只知道现实世界和深度,但是对于只能看到像素的机器来说,这是另一个挑战。生成的模型以现实形状看起来准确,但是它在新场景中如何融合呢?如果照明条件在拍摄的图片中有所不同,而生成的模型则根据您看的角度不同,该怎么办?这对我们来说似乎很奇怪和不现实。这些是Snapchat和南加州大学在这项新研究中攻击的挑战。
我们已经看到了图像介绍,该图像旨在从图片中删除一个不良对象。基于机器学习的技术不仅会删除对象,而且还可以理解图片并以背景的外观填充图像的缺失部分。就像结果一样,最近的进步令人难以置信,这项介绍任务对于许多应用程序(例如广告或改善您未来的Instagram帖子)可能非常有用。我们还涵盖了一个更具挑战性的任务:视频介绍,在该任务中,将相同的过程应用于视频以删除对象或人员。
视频面临的挑战是在没有任何越野车的情况下保持一致的框架。但是现在,如果我们正确地将某人从电影中删除并且声音仍然没有变化,会发生什么?好吧,我们可能会听到鬼魂并毁了我们所有的工作。
这是我从未在频道上涵盖的任务来源的地方:语音介绍。您听到了,Google的研究人员刚刚发表了一篇旨在介绍语音的论文,正如我们将看到的那样,结果令人印象深刻。好的,我们宁愿听到,也不愿看到结果,但是您明白了。它可以纠正您的语法,发音甚至消除背景噪音。我绝对需要继续努力的所有事情,或者……只需使用他们的新模型……听我的视频中的示例!
您是否还拥有自己的旧照片或不好的年龄,或者您或您的父母在我们制作高质量图像之前拍摄的?我愿意,我觉得那些记忆永远损害了。男孩,我错了!
这种新的免费AI模型可以在一秒钟内修复您的大部分旧图片。即使输入非常低或高质量的输入也可以很好地工作,这通常是一个挑战。
本周的论文呼吁使用生成的面部先验来解决现实世界的盲人面部修复,以解决照片修复任务,并取得出色的结果。甚至更酷的是您可以以自己的首选方式自己尝试。他们已经开源的代码,创建了一个演示和在线应用程序,供您立即尝试。如果您在上面看到的结果不够说服,只需观看视频,然后让我知道您在评论中的想法,我知道这会让您大吃一惊!
自动驾驶汽车如何看?
您可能听说过LiDAR传感器或其他正在使用的怪异摄像头。但是,他们如何工作,如何看待世界,与我们相比,他们确切地看到了什么?如果我们想将它们放在路上,那么了解它们的工作方式至关重要,主要是如果您在政府工作或制定下一条法规,则至关重要。而且还作为这些服务的客户。
我们以前报道了特斯拉自动驾驶仪如何看待和工作,但它们与传统的自动驾驶汽车不同。特斯拉仅使用摄像机来了解世界,而其中大多数(例如Waymo)使用常规摄像头和3D激光镜传感器。这些LiDAR传感器非常简单:它们不会产生常规摄像机而不是3D点云之类的图像。 LIDAR摄像机测量对象之间的距离,计算它们将其投影到对象的脉冲激光器的行进时间。
不过,我们如何有效地结合这些信息并让车辆理解它?车辆最终会看到什么?到处都是点?足以在我们的道路上开车吗?我们将通过Waymo和Google Research的新研究论文进行调查...
好像拍照并不是一个充满挑战的技术能力,我们现在正在做相反的事情:从图片中对世界进行建模。我介绍了令人惊叹的基于AI的模型,可以拍摄图像并将其变成高质量的场景。一个具有挑战性的任务包括在二维图片世界中拍摄一些图像,以创建对象或人在现实世界中的外观。
拍摄几张照片,并立即具有逼真的模型以插入您的产品。那有多酷?
我在2020年涵盖的第一个模型(称为nerf)上得到了显着改善。这种改进不仅取决于结果的质量。 Nvidia使情况变得更好。
不仅质量是可比的,即使不是更好,而且还不到两年的研究速度超过1'000倍。
去年,我分享了Dall·e,这是一个令人惊叹的模型,它能够从文本输入中生成图像,并具有令人难以置信的结果。现在是他的大哥哥达尔·E 2的时候了。您不会相信一年的进步! dall·e 2不仅可以从文本中生成影像图像。结果是分辨率的四倍!
好像还不够令人印象深刻,最近的模型学会了一项新技能。图像介入。
dall·e可以从文本输入中生成图像。
dall·e 2可以做得更好,但它不止于此。它还可以编辑这些图像,并使它们看起来更好!或者只需在后台添加您想要的功能。
听起来很有趣吗?在视频中了解更多信息,或在下面了解更多信息!
Google Research和Tel-Aviv大学的这一新模式令人难以置信。您可以将其视为一个非常非常强大的深击,可以做任何事情。
拍摄任何人的一百张照片,您将其角色编码用于修复,编辑或创建所需的任何现实图片。
如果您问我,这既令人惊讶又令人恐惧,尤其是当您查看结果时。观看视频以查看更多结果并了解模型的工作方式!
查看与该领域专家的访谈形式的更多AI内容的AI播客!邀请AI专家,我将介绍与AI相关的特定主题,子场和角色,以教授和分享努力收集它的人们的知识。
我们都听说过GPT-3,并且对其能力有些清楚。当然,您当然已经看到了某些由于这种模型严格出生的应用程序,我在以前的有关该模型的视频中介绍了一些应用程序。 GPT-3是由OpenAI开发的模型,您可以通过付费API访问,但无法访问该模型本身。
GPT-3如此强大的原因既是其建筑和尺寸。它有1750亿个参数。我们大脑中的神经元数量的两倍!这个巨大的网络几乎在整个互联网上进行了培训,以了解我们如何编写,交换和理解文本。本周,梅塔(Meta)为社区迈出了一大步。他们刚刚发布了一个同样强大(即使不是更多),并且已经完全开源的模型。
Blobgan允许对图像进行虚幻的操纵,使超级容易控制简单的斑点。所有这些小斑点代表一个对象,您可以将它们移动或使其更大,更小甚至删除它们,并且对其在图像中所代表的对象具有相同的效果。这太酷了!
正如作者在其结果中分享的那样,您甚至可以通过重复斑点来创建新颖的图像,在数据集中创建一个看不见的图像,就像一个带有两个吊扇的房间一样!如果我错了,请纠正我,但我相信这是将图像修改像周围移动斑点并允许在培训数据集中看不到的编辑一样简单的图像修改的论文之一。
与我们都知道的某些公司相比,您实际上可以玩这个!他们公开分享了他们的代码和您可以立即尝试的COLAB演示。更令人兴奋的是Blobgan的工作原理。在视频中了解更多!
来自DeepMind的Gato刚刚出版了!这是一个可以玩Atari游戏,字幕图像,与人聊天,控制真正的机器人手臂等等的单一变压器!确实,它经过一次训练,并使用相同的权重来完成所有这些任务。根据DeepMind的规定,这不仅是变压器,而且是代理商。当您将变形金刚与多任务增强学习剂的进度混合在一起时,就会发生这种情况。
Gato是一种多模式代理。这意味着它可以为图像创建字幕或作为聊天机器人回答问题。您可能会说GPT-3已经可以做到这一点,但是Gato可以做更多的事情……多模式源于Gato也可以在人类层面玩Atari游戏,甚至可以执行现实世界中的任务,例如控制机器人的手臂精确移动对象。它了解单词,图像甚至物理学...
如果您认为DALL-E 2的结果很好,请等到您看到Google Brain的新型号可以做什么。
Dalle-E很棒,但通常缺乏现实主义,这就是团队用这个名为Imagen的新模型攻击的。
他们在项目页面上分享了很多结果以及基准,他们介绍了用于比较文本图像模型的基准,在该模型中显然超过了DALL-E 2以及以前的图像生成方法。在视频中了解更多...
Dalle Mini很棒 - 您可以使用它!
我敢肯定,您过去几天在Twitter feed中看到了像图片一样。如果您想知道它们是什么,它们是由称为dall·e mini的AI产生的图像。如果您从未看过这些,则需要观看此视频,因为您错过了。如果您想知道这是怎么可能的,那么,您将在完美的视频中,并且会在不到五分钟的时间内知道答案。
Dalle Mini是一种免费的开源AI,可从文本输入中产生惊人的图像。
Meta AI的最新模型称为“不留下的语言”,这就是这样做的:以最先进的质量翻译了200种不同的语言。单个模型可以处理200种语言。那有多难以置信?
我们发现,在Meta以相同的模型处理200种不同的语言时,很难严格取得很好的效果,而某些最复杂,最不明显的语言甚至是Google与...转化为...
他们使用摄像头和任何振动表面上的激光束重建声音,使它们能够隔离乐器,专注于特定的扬声器,删除环境噪声以及更多令人惊叹的应用。
Make-A-Scene并不是“另一个达勒”。这个新模型的目标不是让用户像达勒一样(确实很酷)按照文本提示来生成随机图像,而是限制了用户对世代的控制。
取而代之的是,Meta希望向前推动创造性的表达,将这种文本对图像趋势与以前的素描到图像模型相结合,从而导致“ Make-A-Scene”:文本和素描条件的图像生成之间的奇妙混合。
用Banmo从图片中创建可变形的3D模型!
诸如Dalle,Imagen或Midjourney等最近的所有超级强大图像模型有什么共同点?除了他们的高计算成本,巨大的培训时间和共享的炒作外,它们都基于相同的机制:扩散。扩散模型最近在大多数图像任务中获得了最新的结果,包括使用Dalle的文本对象,但许多其他与图像生成相关的任务,例如图像介入,样式传输或图像超级分辨率。
?如果您想支持我的工作,则可以检查以赞助此存储库或在Patreon上支持我。
Panoptic场景图生成或PSG是一项新的问题任务,旨在基于全景分割而不是边界框生成图像或场景的更全面的图表表示。它可用于理解图像并生成描述正在发生的事情的句子。对于AI来说,这可能是最具挑战性的任务!在下面了解更多...
诸如Dalle或稳定扩散之类的文本到图像模型确实很酷,并让我们可以使用简单的文本输入来生成出色的图片。但是,给他们一张您的照片并要求它将其变成绘画会更酷吗?想象一下,能够将任何对象,人甚至猫的图片发送,并要求模型将其转变为另一种风格,例如将自己变成您喜欢的艺术风格或将其添加到新场景中。
基本上,拥有Dalle的版本会多么酷,我们可以用来Photoshop我们的图片而不是随机世代?拥有个性化的达勒(Dalle),同时使其更容易控制这一代人,因为“图像价值一千个单词”。就像拥有与Tiktok算法一样个性化和上瘾的Dalle模型。
好吧,这就是特拉维夫大学和NVIDIA的研究人员所做的。他们开发了一种调理文本到图像模型的方法,例如我上周涵盖的稳定扩散,并通过您将通过图像发送的单词来表示任何对象或概念。将输入图像的对象转换为您想要的任何东西!
我们已经看到AI生成文本,然后生成图像,最近甚至还会生成简短的视频,即使它们仍然需要工作。当您认为实际上没有人参与这些作品的创建过程时,结果就令人难以置信,并且只需要训练一次才能被稳定扩散之类的成千上万的人使用。尽管如此,这些模型是否真的了解他们在做什么?他们知道他们刚刚制作的图片或视频真正代表了什么?当看到这样的图片或更复杂的视频时,这种模型有什么理解?
Meta AI的新型号Make-A-Video已经出来了,并且在一个句子中:它从文本中生成视频。它不仅能够生成视频,而且还是新的最新方法,比以往任何时候都产生更高质量和更连贯的视频!
您是否曾经梦想过一个好的转录工具,可以准确地理解您的话并写下来?不像自动的YouTube翻译工具……我的意思是,它们很好,但远非完美。只需尝试一下,然后打开视频的功能,您就会看到我在说什么。
幸运的是,Openai刚刚发布并为此开了一个功能强大的AI模型:耳语。
它了解我什至无法理解的东西,不是说英语的母语者(在视频中听),也适用于语言翻译!
我们已经看到模型可以拿句子并生成图像。然后,通过学习特定概念(例如对象或特定样式)来操纵生成的图像的其他方法。
上周,Meta发布了我涵盖的Meak-A-Video模型,该模型使您还可以从文本句子中生成一个简短的视频。结果还不是完美的,但是自去年以来,我们在该领域取得的进步真是令人难以置信。
本周,我们又向前迈出了一步。
这是一种DreamFusion,这是一种新的Google研究模型,可以理解足以生成其3D模型的句子。您可以将其视为达勒或稳定的扩散,但以3D为单位。
如果您认为诸如Dalle或稳定扩散之类的图像生成模型很酷,那么您就不会相信这是多么令人难以置信。 “这个”是图像。 Imagic采用这样的基于扩散的模型,能够将文本拿出来并从中生成图像,并适应模型来编辑图像。您可以生成图像,然后教导模型以任何您想要的方式进行编辑。
NVIDIA的最新模型Ediffi比Dalle 2或稳定扩散(例如稳定的扩散)产生看起来更好,更准确的图像。 Ediffi可以更好地了解您发送的文本,并且更具自定义,并在Nvidia:Painter工具的上一篇论文中添加了一项功能。
?如果您想支持我的工作,则可以检查以赞助此存储库或在Patreon上支持我。
产生无限的新框架,就好像您会飞向图像一样!
Galactica是一种大型语言模型,大小与GPT-3相当,但专门研究科学知识。该模型可以编写白皮书,评论,Wikipedia页面和代码。它知道如何引用以及如何编写方程式。对于人工智能和科学来说,这很重要。
从单个视频中,他们可以用更高的质量实时综合几乎所有单词或句子的人说话。您可以实时遵循任何音频曲目来为会说话的头动画。
Chatgpt占据了Twitter和整个Internet,这要归功于它提供的力量和模因潜力。我们都知道能够产生模因是征服互联网的最佳方法,因此它起作用了。
由于您已经看到了许多示例,因此您可能已经知道Chatgpt是最近通过Openai向公众发布的AI,您可以与您聊天。它也称为聊天机器人,这意味着您可以在对话中与IT进行交互,从而模仿一对一的人类讨论。
您可能不知道它是什么以及它的工作原理...观看视频或阅读下面的文章或博客文章以了解更多信息!
无论是在Snapchat过滤器,电影中还是为了消除一些皱纹,都是为了娱乐,我们都会想到能够在图片中改变我们的年龄的实用程序。
这通常是由熟练的艺术家使用Photoshop或类似工具来编辑图片的。最糟糕的是,在视频中,他们必须为每一帧进行此类手动编辑!试想一下,为此所需的工作量。好吧,这是解决这种情况的解决方案和新问题...?
如果您想阅读更多论文并拥有更广阔的视野,这是您涵盖2021:2021的另一个很棒的存储库:一年充满了令人惊叹的AI论文 - 一份评论,并随时订阅我的每周新闻通讯并保持最新状态 - 与2022年AI的新出版物一起使用!
如果您共享列表,请在Twitter @Whats_ai或LinkedIn @Lououis(What是AI)上标记我!
[1] Suvorov,R.,Logacheva,E.,Mashikhin,A.,Remizova,A.,Ashukha,A.,Silvestrov,A.,Kong,N.,Goka,H. V.,2022年。解决方案的大面罩与傅立叶卷积。在IEEE/CVF冬季会议论文集(第2149–2159页)。
[2] Tzaban,R.,Mokady,R.,Gal,R.,Bermano,AH和Cohen-Or,D.,2022年。及时缝合:基于GAN的真实视频的面部编辑。 https://arxiv.org/abs/2201.08361
[3] Kuang,Z.,Olszewski,K.,Chai,M.,Huang,Z.,Achlioptas,P。和Tulyakov,S.,2022年。Neroic:Neroic:从在线图像收集中的对象的神经渲染。 https://arxiv.org/pdf/2201.02533.pdf
[4] Borsos,Z.,Sharifi,M。和Tagliasacchi,M。,2022年。语音台面:文本条件的语音介绍。 https://arxiv.org/pdf/2202.07273.pdf
[5] Wang,X.,Li,Y.,Zhang,H。和Shan,Y.,2021。朝着现实世界中的盲人面部恢复,具有生成性面部的先验。在IEEE/CVF计算机视觉和模式识别会议论文集(第9168-9178页),https://arxiv.org/pdf/2101.04061.pdf
[6] Piergiovanni,AJ,Casser,V.,Ryoo,MS和Angelova,A.,2021。4d-Net,用于学习的多模式对齐。 In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 15435–15445), https://openaccess.thecvf.com/content/ICCV2021/papers/Piergiovanni_4D-Net_for_Learned_Multi-Modal_Alignment_ICCV_2021_paper.pdf.
[7] Thomas Muller,Alex Evans,Christoph Schied和Alexander Keller,2022年,“具有多种解决方案的Hash编码的即时神经图形原始图”,https://nvlabs.github.io/instant-ngp/instant-ngp/assets/assets/sassets/mueller20222222222instant.pdffff
[8] A. Ramesh等人,2022年,“带有剪辑潜在的层次结构文本条件形象生成”,https://cdn.openai.com/papers/dall-e-2.pdf
[9] Nitzan,Y.,Aberman,K.,He,Q.,Liba,O.,Yarom,M.,Gandelsman,Y.,Mosseri,I.,Pritch,Y。和Cohen-Or,D. 2022. Mystyle:个性化的生成剂ARXIV预印型ARXIV:2203.17272。
[10]张,苏珊等。 “OPT: Open Pre-trained Transformer Language Models.” https://arxiv.org/abs/2205.01068
[11] Epstein, D., Park, T., Zhang, R., Shechtman, E. and Efros, AA, 2022. BlobGAN: Spatially Disentangled Scene Representations. arXiv preprint arXiv:2205.02837.
[12] Reed S. et al., 2022, Deemind: Gato - A generalist agent, https://storage.googleapis.com/deepmind-media/A%20Generalist%20Agent/Generalist%20Agent.pdf
[13] Saharia et al., 2022, Google Brain, Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding, https://gweb-research-imagen.appspot.com/paper.pdf
[14] Dayma, et al., 2021, DALL·E Mini, doi:10.5281/zenodo.5146400
[15] NLLB Team et al., 2022, No Language Left Behind: Scaling Human-Centered Machine Translation
[16] Sheinin, Mark and Chan, Dorian and O'Toole, Matthew and Narasimhan, Srinivasa G., 2022, Dual-Shutter Optical Vibration Sensing, Proc. IEEE CVPR.
[17] Gafni, O., Polyak, A., Ashual, O., Sheynin, S., Parikh, D. and Taigman, Y., 2022. Make-a-scene: Scene-based text-to-image generation with human priors. https://arxiv.org/pdf/2203.13131.pdf
[18] Yang, G., Vo, M., Neverova, N., Ramanan, D., Vedaldi, A. and Joo, H., 2022. Banmo: Building animatable 3d neural models from many casual videos. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 2863-2873).
[19] Rombach, R., Blattmann, A., Lorenz, D., Esser, P. and Ommer, B., 2022. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 10684–10695), https://arxiv.org/pdf/2112.10752.pdf
[20] Yang, J., Ang, YZ, Guo, Z., Zhou, K., Zhang, W. and Liu, Z., 2022. Panoptic Scene Graph Generation. arXiv preprint arXiv:2207.11247.
[21] Gal, R., Alaluf, Y., Atzmon, Y., Patashnik, O., Bermano, AH, Chechik, G. and Cohen-Or, D., 2022. An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion.
[22] Ni, B., Peng, H., Chen, M., Zhang, S., Meng, G., Fu, J., Xiang, S. and Ling, H., 2022. Expanding Language-Image Pretrained Models for General Video Recognition. arXiv preprint arXiv:2208.02816.
[23] Singer et al. (Meta AI), 2022, “MAKE-A-VIDEO: TEXT-TO-VIDEO GENERATION WITHOUT TEXT-VIDEO DATA”, https://makeavideo.studio/Make-A-Video.pdf
[24] Radford, A., Kim, JW, Xu, T., Brockman, G., McLeavey, C. and Sutskever, I., Robust Speech Recognition via Large-Scale Weak Supervision.
[25] Poole, B., Jain, A., Barron, JT and Mildenhall, B., 2022. DreamFusion: Text-to-3D using 2D Diffusion. arXiv preprint arXiv:2209.14988.
[26] Kawar, B., Zada, S., Lang, O., Tov, O., Chang, H., Dekel, T., Mosseri, I. and Irani, M., 2022. Imagic: Text-Based Real Image Editing with Diffusion Models. arXiv preprint arXiv:2210.09276.
[27] Balaji, Y. et al., 2022, eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers, https://arxiv.org/abs/2211.01324
[28] Li, Z., Wang, Q., Snavely, N. and Kanazawa, A., 2022. InfiniteNature-Zero: Learning Perpetual View Generation of Natural Scenes from Single Images. In European Conference on Computer Vision (pp. 515–534). Springer, Cham, https://arxiv.org/abs/2207.11148
[29] Taylor et al., 2022: Galactica: A Large Language Model for Science, https://galactica.org/
[30] Tang, J., Wang, K., Zhou, H., Chen, X., He, D., Hu, T., Liu, J., Zeng, G. and Wang, J., 2022. Real-time Neural Radiance Talking Portrait Synthesis via Audio-spatial Decomposition. arXiv preprint arXiv:2211.12368.
[31] OpenAI, 2022: ChatGPT: Optimizing Language Models for Dialogue, https://openai.com/blog/chatgpt/
[32] Loss et al., DisneyResearch, 2022: FRAN, https://studios.disneyresearch.com/2022/11/30/production-ready-face-re-aging-for-visual-effects/