Enquanto o mundo ainda está se recuperando, a pesquisa não diminuiu seu ritmo frenético, especialmente no campo da inteligência artificial. Mais, muitos aspectos importantes foram destacados este ano, como os aspectos éticos, vieses importantes, governança, transparência e muito mais. A inteligência artificial e nossa compreensão do cérebro humano e seu vínculo com a IA estão em constante evolução, mostrando aplicações promissoras melhorando a qualidade de nossa vida em um futuro próximo. Ainda assim, devemos ter cuidado com a tecnologia que escolhemos aplicar.
"A ciência não pode nos dizer o que devemos fazer, apenas o que podemos fazer".
- Jean-Paul Sartre, ser e nada
Aqui está a lista com curadoria dos últimos avanços na IA e na Ciência dos Dados por data de lançamento com uma explicação clara de vídeo, link para um artigo mais aprofundado e código (se aplicável). Aproveite a leitura!
A referência completa a cada artigo está listada no final deste repositório. Estrela este repositório para se manter atualizado e ficar atento ao próximo ano! ️
Manter: Louisfb01, também ativo no YouTube e como podcaster, se você quiser ver/ouvir mais sobre a IA!
Inscreva -se no meu boletim informativo - as atualizações mais recentes da IA explicadas toda semana.
Sinta -se à vontade para me enviar uma mensagem interessante que eu possa ter perdido para adicionar a este repositório.
Marque -me no Twitter @whats_ai ou LinkedIn @louis (o que é ai) Bouchard se você compartilhar a lista! E venha conversar conosco em nossa comunidade Aprenda a IA juntos!
? Se você quiser apoiar meu trabalho , pode verificar para patrocinar este repositório ou me apoiar no Patreon.
Você certamente experimentou essa situação uma vez: você tira uma ótima foto com seu amigo e alguém está fotografando atrás de você, arruinando sua futura postagem no Instagram. Bem, isso não é mais um problema. Ou é uma pessoa ou uma lata de lixo que você esqueceu de remover antes de tirar sua selfie que está arruinando sua foto. Esta IA removerá automaticamente o objeto ou pessoa indesejada na imagem e salvará sua postagem. É como um designer profissional do Photoshop no seu bolso e com um clique simples!
Esta tarefa de remover parte de uma imagem e substituí -la pelo que deve aparecer por trás foi abordada por muitos pesquisadores de IA há muito tempo. É chamado de imagem de imagem, e é extremamente desafiador ...
Você certamente viu filmes como o recente Capitão Marvel ou Gemini Man, onde Samuel L Jackson e Will Smith pareciam parecer muito mais jovens. Isso requer centenas, senão milhares de horas de trabalho de profissionais editando manualmente as cenas em que ele apareceu. Em vez disso, você pode usar uma IA simples e fazê -lo em alguns minutos. De fato, muitas técnicas permitem que você adicione sorrisos, faça você parecer mais jovem ou mais velho, todos usando algoritmos baseados em IA. É chamado de manipulações de rosto baseadas em IA em vídeos e aqui está o atual estado da arte em 2022!
Renderização neural. A renderização neural é a capacidade de gerar um modelo fotorrealista no espaço como este, a partir de imagens do objeto, pessoa ou cena de interesse. Nesse caso, você teria algumas fotos dessa escultura e pediria à máquina que entenda como o objeto nessas figuras deveria ser no espaço. Você está basicamente pedindo a uma máquina que entenda a física e molda as imagens. Isso é muito fácil para nós, já que conhecemos apenas o mundo real e as profundezas, mas é outro desafio para uma máquina que só vê pixels. É ótimo que o modelo gerado pareça preciso com formas realistas, mas e como ele se mistura na nova cena? E se as condições de iluminação variarem nas fotos tiradas e o modelo gerado parecer diferente, dependendo do ângulo que você olha? Isso seria automaticamente estranho e irrealista para nós. Esses são os desafios do Snapchat e da Universidade do Sul da Califórnia atacaram nesta nova pesquisa.
Vimos imagens de imagem, que visa remover um objeto indesejável de uma imagem. As técnicas baseadas em aprendizado de máquina não removem simplesmente os objetos, mas também entendem a imagem e preenchem as partes ausentes da imagem com a aparência do plano de fundo. Os recentes avanços são incríveis, assim como os resultados, e essa tarefa de pintura pode ser bastante útil para muitos aplicativos como anúncios ou para melhorar sua futura postagem no Instagram. Também abordamos uma tarefa ainda mais desafiadora: a pintura de vídeo, onde o mesmo processo é aplicado a vídeos para remover objetos ou pessoas.
O desafio com os vídeos vem com permanecer consistente de quadro para quadro sem artefatos de buggy. Mas agora, o que acontece se removermos corretamente uma pessoa de um filme e o som ainda está lá, inalterado? Bem, podemos ouvir um fantasma e arruinar todo o nosso trabalho.
É aqui que entra uma tarefa que eu nunca abordei no meu canal: discurso de discurso. Você ouviu certo, pesquisadores do Google acabaram de publicar um artigo com o objetivo de pintar o discurso e, como veremos, os resultados são bastante impressionantes. Ok, podemos preferir ouvir do que ver os resultados, mas você entendeu. Ele pode corrigir sua gramática, pronúncia ou até remover o ruído de fundo. Todas as coisas em que eu definitivamente preciso continuar trabalhando ou ... simplesmente use o novo modelo ... Ouça os exemplos no meu vídeo!
Você também tem fotos antigas de si mesmo ou próximas que não envelheceram bem ou que você, ou seus pais, tiraram antes que pudéssemos produzir imagens de alta qualidade? Eu faço, e senti que essas lembranças foram danificadas para sempre. Rapaz, eu estava errado!
Este modelo de IA novo e completamente gratuito pode corrigir a maioria das suas fotos antigas em uma fração de segundo. Funciona bem, mesmo com entradas muito baixas ou de alta qualidade, o que normalmente é bastante o desafio.
O artigo desta semana chamou para a restauração do rosto cego do mundo real com o generativo Facial Prior aborda a tarefa de restauração de fotos com excelentes resultados. O que é ainda mais legal é que você pode experimentá -lo e da sua maneira preferida. Eles de origem aberta, criaram uma demonstração e aplicativos on-line para você tentar agora. Se os resultados que você viu acima não forem convincentes o suficiente, apenas assista ao vídeo e deixe -me saber o que você pensa nos comentários, eu sei que isso vai explodir sua mente!
Como os veículos autônomos veem?
Você provavelmente já ouviu falar de sensores Lidar ou outras câmeras estranhas que eles estão usando. Mas como eles funcionam, como podem ver o mundo e o que eles vêem exatamente em comparação com nós? Entender como eles funcionam é essencial se queremos colocá -los na estrada, principalmente se você trabalha no governo ou construir os próximos regulamentos. Mas também como cliente desses serviços.
Anteriormente, cobrimos como o Tesla Autopilot vê e funciona, mas eles são diferentes dos veículos autônomos convencionais. A Tesla usa apenas câmeras para entender o mundo, enquanto a maioria, como Waymo, usa câmeras regulares e sensores LIDAR 3D. Esses sensores LiDAR são bastante simples de entender: eles não produzem imagens como câmeras comuns, mas nuvens de ponto 3D. As câmeras LIDAR medem a distância entre os objetos, calculando o tempo de viagem do laser de pulso que eles projetam para o objeto.
Ainda assim, como podemos combinar essas informações eficientemente e fazer com que o veículo as compreenda? E o que o veículo acaba vendo? Apenas pontos em todos os lugares? É o suficiente para dirigir em nossas estradas? Vamos analisar isso com um novo artigo de pesquisa por Waymo e Google Research ...
Como se tirar uma foto não fosse uma capacidade tecnológica desafiadora o suficiente, agora estamos fazendo o oposto: modelar o mundo a partir de fotos. Cobri modelos incríveis baseados em IA que podem pegar imagens e transformá-las em cenas de alta qualidade. Uma tarefa desafiadora que consiste em tirar algumas imagens no mundo da imagem bidimensional para criar como o objeto ou pessoa ficaria no mundo real.
Tire algumas fotos e instantaneamente tenha um modelo realista para inserir seu produto. Quão legal é isso?!
Os resultados melhoraram drasticamente no primeiro modelo que abordei em 2020, chamado NERF. E essa melhoria não é apenas sobre a qualidade dos resultados. Nvidia tornou ainda melhor.
Não apenas que a qualidade seja comparável, se não melhor, mas é mais de 1.000 vezes mais rápida, com menos de dois anos de pesquisa.
No ano passado, compartilhei Dall · E, um modelo incrível do OpenAI capaz de gerar imagens a partir de uma entrada de texto com resultados incríveis. Agora é hora de seu irmão mais velho, Dall · e 2. E você não vai acreditar no progresso em um único ano! Dall · E 2 não é apenas melhor na geração de imagens fotorrealistas a partir do texto. Os resultados são quatro vezes a resolução!
Como se já não fosse impressionante o suficiente, o modelo recente aprendeu uma nova habilidade; Imagem em pintura.
Dall · e pode gerar imagens a partir de entradas de texto.
Dall · E 2 pode fazer melhor, mas não para por aí. Também pode editar essas imagens e fazê -las parecer ainda melhores! Ou simplesmente adicione um recurso que você deseja como alguns flamingos em segundo plano.
Parece interessante? Saiba mais no vídeo ou leia mais abaixo!
Este novo modelo do Google Research e Tel-Aviv University é incrível. Você pode vê -lo como um DeepFake muito, muito poderoso que pode fazer qualquer coisa.
Tire cem fotos de qualquer pessoa e você terá sua persona codificada para consertar, editar ou criar qualquer imagem realista que desejar.
Isso é incrível e assustador se você me perguntar, especialmente quando você olha para os resultados. Assista ao vídeo para ver mais resultados e entender como o modelo funciona!
Confira o podcast What's Ai para obter mais conteúdo de IA na forma de entrevistas com especialistas no campo! Um especialista em IA convidado e eu abordarei tópicos específicos, subcampos e funções relacionadas à IA para ensinar e compartilhar conhecimento das pessoas que trabalharam duro para reuni-lo.
Todos ouvimos falar do GPT-3 e temos uma idéia clara de suas capacidades. Você certamente viu alguns aplicativos nascidos estritamente devido a esse modelo, alguns dos quais eu cobri em um vídeo anterior sobre o modelo. O GPT-3 é um modelo desenvolvido pelo OpenAI que você pode acessar através de uma API paga, mas não tem acesso ao próprio modelo.
O que torna o GPT-3 tão forte é sua arquitetura e tamanho. Possui 175 bilhões de parâmetros. Duas vezes a quantidade de neurônios que temos em nossos cérebros! Essa imensa rede foi praticamente treinada em toda a Internet para entender como escrevemos, trocamos e entendemos o texto. Nesta semana, a Meta deu um grande passo à frente para a comunidade. Eles acabaram de lançar um modelo que é tão poderoso, se não mais e tem de código aberto completamente.
Blobgan permite a manipulação irreal de imagens, fez super facilmente controlar facilmente blobs simples. Todos esses pequenos blobs representam um objeto, e você pode movê -los ou torná -los maiores, menores ou até removê -los, e terá o mesmo efeito no objeto que ele representa na imagem. Isso é tão legal!
Como os autores compartilhavam seus resultados, você pode até criar novas imagens, duplicando Blobs, criando imagens invisíveis no conjunto de dados como uma sala com dois ventiladores de teto! Corrija -me se estiver errado, mas acredito que é um dos papéis, se não o primeiro, para tornar a modificação das imagens tão simples quanto mover bolhas e permitir edições que não foram vistas no conjunto de dados de treinamento.
E você pode realmente brincar com este em comparação com algumas empresas que todos conhecemos! Eles compartilharam seu código publicamente e uma demonstração do Colab que você pode tentar imediatamente. Ainda mais emocionante é como Blobgan funciona. Saiba mais no vídeo!
Gato de DeepMind foi publicado! É um único transformador que pode jogar jogos Atari, imagens de legenda, conversar com pessoas, controlar um braço robótico e muito mais! De fato, é treinado uma vez e usa os mesmos pesos para realizar todas essas tarefas. E, de acordo com o DeepMind, este não é apenas um transformador, mas também um agente. É o que acontece quando você mistura transformadores com progresso em agentes de aprendizado de reforço de várias tarefas.
Gato é um agente multimodal. O que significa que ele pode criar legendas para imagens ou responder perguntas como um chatbot. Você diria que o GPT-3 já pode fazer isso, mas Gato pode fazer mais ... a modalidade múltipla vem do fato de que Gato também pode jogar jogos de atari no nível humano ou até fazer tarefas do mundo real, como controlar os braços robóticos para mover objetos com precisão. Entende palavras, imagens e até física ...
Se você pensou que o Dall-E 2 teve ótimos resultados, espere até ver o que esse novo modelo do Google Brain pode fazer.
Dalle-E é incrível, mas muitas vezes carece de realismo, e é isso que a equipe atacou com esse novo modelo chamado Imagen.
Eles compartilham muitos resultados em sua página de projeto e em uma referência, que eles introduziram para comparar modelos de texto para imagem, onde superam claramente o Dall-E 2 e as abordagens de geração de imagens anteriores. Saiba mais no vídeo ...
Dalle Mini é incrível - e você pode usá -lo!
Tenho certeza de que você viu fotos como as do seu feed do Twitter nos últimos dias. Se você se perguntou o que eram, são imagens geradas por uma IA chamada Dall · E Mini. Se você nunca os viu, precisa assistir a este vídeo porque está perdendo. Se você se perguntar como isso é possível, bem, você está no vídeo perfeito e saberá a resposta em menos de cinco minutos.
Dalle Mini é uma IA gratuita e de código aberto que produz imagens incríveis a partir de entradas de texto.
O modelo mais recente da Meta AI, chamado "Nenhuma linguagem deixada para trás" faz exatamente isso: se traduz em 200 idiomas diferentes com qualidade de ponta. Um único modelo pode lidar com 200 idiomas. Quão incrível é isso?
Achamos difícil ter ótimos resultados estritamente em inglês, enquanto a Meta está enfrentando 200 idiomas diferentes com o mesmo modelo, e alguns dos mais complicados e menos representados que até o Google traduzem lutas com ...
Eles reconstruem o som usando câmeras e um feixe de laser em qualquer superfície vibratória, permitindo que eles isolem instrumentos musicais, concentrem -se em um alto -falante específico, removam ruídos ambientais e muito mais aplicativos incríveis.
Make-a-Scene não é "apenas mais um Dalle". O objetivo desse novo modelo não é permitir que os usuários gerem imagens aleatórias após o prompt de texto como Dalle - o que é muito legal -, mas restringe o controle do usuário nas gerações.
Em vez disso, a Meta queria levar a expressão criativa para a frente, mesclando essa tendência de texto para imagem com modelos anteriores de esboço para imagem, levando a "Make-a-Scene": uma mistura fantástica entre o texto e a geração de imagens condicionadas ao esboço.
Crie modelos 3D deformáveis a partir de imagens com banmo!
O que todos os modelos de imagem super poderosos recentes, como Dalle, Imagen ou Midjourney, têm em comum? Além de seus altos custos de computação, grande tempo de treinamento e hype compartilhado, todos são baseados no mesmo mecanismo: difusão. Os modelos de difusão alcançaram recentemente os resultados de última geração para a maioria das tarefas de imagem, incluindo texto para imagem com Dalle, mas muitas outras tarefas relacionadas à geração de imagens também, como imagens de imagem, transferência de estilo ou super-resolução.
? Se você quiser apoiar meu trabalho , pode verificar para patrocinar este repositório ou me apoiar no Patreon.
A geração de gráficos da cena panóptica, ou PSG, é uma nova tarefa de problemas com o objetivo de gerar uma representação de gráfico mais abrangente de uma imagem ou cena baseada na segmentação panóptica, em vez de limitando caixas. Pode ser usado para entender as imagens e gerar frases que descrevem o que está acontecendo. Esta pode ser a tarefa mais desafiadora para uma IA! Saiba mais abaixo ...
Modelos de texto para imagem como Dalle ou difusão estável são muito legais e permitem gerar imagens fantásticas com uma entrada de texto simples. Mas seria ainda mais legal dar a você uma foto sua e pedir para transformá -la em uma pintura? Imagine ser capaz de enviar qualquer foto de um objeto, pessoa ou até seu gato, e peça ao modelo para transformá -lo em outro estilo, como se transformar em um ciborgue em seu estilo artístico preferido ou adicioná -lo a uma nova cena.
Basicamente, quão legal seria ter uma versão de Dalle que podemos usar para photoshop nossas fotos em vez de ter gerações aleatórias? Ter um Dalle personalizado, tornando muito mais simples controlar a geração como "uma imagem vale mais que mil palavras". Seria como ter um modelo Dalle que seja tão personalizado e viciante quanto o algoritmo Tiktok.
Bem, é nisso que os pesquisadores da Universidade de Tel Aviv e da NVIDIA trabalharam. Eles desenvolveram uma abordagem para condicionar modelos de texto para imagem, como a difusão estável que abordei na semana passada, com algumas imagens para representar qualquer objeto ou conceito através das palavras que você enviará ao longo de suas imagens. Transformando o objeto de suas imagens de entrada em o que você quiser!
Vimos a IA gerar texto e, em seguida, gerar imagens e, mais recentemente, gerar vídeos curtos, mesmo que eles ainda precisem de trabalho. Os resultados são incríveis quando você pensa que ninguém está realmente envolvido no processo de criação dessas peças e só precisa ser treinado uma vez para ser usado por milhares de pessoas como a difusão estável. Ainda assim, esses modelos realmente entendem o que estão fazendo? Eles sabem o que a imagem ou o vídeo que acabaram de produzir realmente representa? O que esse modelo entende quando vê essa imagem ou, ainda mais complexa, um vídeo?
O novo modelo da Meta AI Make-A-Video está fora e em uma única frase: gera vídeos do texto. Não é apenas capaz de gerar vídeos, mas também é o novo método de última geração, produzindo vídeos de maior qualidade e mais coerentes do que nunca!
Você já sonhou com uma boa ferramenta de transcrição que entenderia com precisão o que você diz e anotaria? Não é como as ferramentas automáticas de tradução do YouTube ... quero dizer, elas são boas, mas longe de ser perfeitas. Apenas experimente e ative o recurso para o vídeo, e você verá do que estou falando.
Felizmente, o Openai acabou de lançar e de origem aberta, um modelo de IA bastante poderoso, apenas para isso: Whisper.
Ele entende coisas que eu nem consigo compreender, não sendo um falante nativo de inglês (ouça no vídeo) e também funciona para a tradução do idioma!
Vimos modelos capazes de receber uma frase e gerar imagens. Em seguida, outras abordagens para manipular as imagens geradas aprendendo conceitos específicos como um objeto ou estilo específico.
Na semana passada, a Meta publicou o modelo Make-A-Video que eu cobri, que permite gerar um pequeno vídeo também a partir de uma frase de texto. Os resultados ainda não são perfeitos, mas o progresso que fizemos em campo desde o ano passado é simplesmente incrível.
Nesta semana, damos outro passo à frente.
Aqui está o Dreamfusion, um novo modelo de pesquisa do Google que pode entender uma frase suficiente para gerar um modelo 3D. Você pode ver isso como uma difusão dalle ou estável, mas em 3D.
Se você acha que os modelos recentes de geração de imagens como Dalle ou difusão estável são legais, você simplesmente não vai acreditar no quão incrível é este. "Este" é imaga. A Imagic pega um modelo baseado em difusão capaz de tirar o texto e gerar imagens e adapta o modelo para editar as imagens. Você pode gerar uma imagem e depois ensinar o modelo para editá -la da maneira que desejar.
Ediffi, o modelo mais recente da NVIDIA, gera imagens mais bonitas e mais precisas do que todas as abordagens anteriores como Dalle 2 ou difusão estável. Ediffi entende melhor o texto que você envia e é mais personalizável, adicionando um recurso que vimos em um artigo anterior da NVIDIA: The Painter Tool.
? Se você quiser apoiar meu trabalho , pode verificar para patrocinar este repositório ou me apoiar no Patreon.
Gere novos quadros infinitos como se você estivesse voando em sua imagem!
A Galactica é um modelo de linguagem grande com um tamanho comparável ao GPT-3, mas especializado em conhecimento científico. O modelo pode escrever whitepapers, críticas, páginas da Wikipedia e código. Ele sabe como citar e como escrever equações. É um grande negócio para a IA e a ciência.
De um único vídeo, eles podem sintetizar a pessoa falando por praticamente qualquer palavra ou frase em tempo real com melhor qualidade. Você pode animar uma cabeça falante após qualquer faixa de áudio em tempo real.
O ChatGPT assumiu o Twitter e praticamente toda a Internet, graças ao seu poder e ao potencial de meme que ele fornece. Todos sabemos como ser capaz de gerar memes é a melhor maneira de conquistar a Internet e, portanto, funcionou.
Como você já viu vários exemplos, você já deve saber que o ChatGPT é uma IA lançada recentemente ao público pelo Openai, com quem você pode conversar. Também é chamado de chatbot, o que significa que você pode interagir com ele conversando, imitando uma discussão humana individual.
O que você talvez não saiba é o que é e como funciona ... assista ao vídeo ou leia o artigo ou o post do blog abaixo para saber mais!
Seja por diversão em um filtro do Snapchat, para um filme ou mesmo para remover algumas rugas, todos temos uma utilidade em mente para poder mudar nossa idade em uma foto.
Isso geralmente é feito por artistas qualificados usando o Photoshop ou uma ferramenta semelhante para editar suas fotos. Pior, em um vídeo, eles precisam fazer esse tipo de edição manual para cada quadro! Imagine a quantidade de trabalho necessária para isso. Bem, aqui está uma solução e um novo problema para esta situação ...?
Se você deseja ler mais trabalhos e ter uma visão mais ampla, aqui está outro ótimo repositório para você, cobrindo 2021: 2021: Um ano cheio de artigos de IA incríveis- uma revisão e fique à vontade para se inscrever no meu boletim semanal e ficar atualizado -Date com novas publicações na IA para 2022!
Marque -me no Twitter @whats_ai ou LinkedIn @louis (o que é ai) Bouchard se você compartilhar a lista!
[1] Suvorov, R., Logacheva, E., Mashikhin, A., Remizova, A., Ashukha, A., Silvestrov, A., Kong, N., Goka, H., Park, K. e Lempitsky, V., 2022. Resolução-Robust grande máscara que inclui com convoluções de Fourier. Em Anais da Conferência de Inverno do IEEE/CVF sobre Aplicações de Visão Computacional (pp. 2149-2159)., Https://arxiv.org/pdf/2109.07161.pdf
[2] Tzaban, R., Mokady, R., Gal, R., Bermano, AH e Cohen-Or, D., 2022. Costura-o no tempo: edição facial baseada em GaN de vídeos reais. https://arxiv.org/abs/2201.08361
[3] Kuang, Z., Olszewski, K., Chai, M., Huang, Z., Achlioptas, P. e Tulyakov, S., 2022. Neroic: renderização neural de objetos de coleções de imagens on -line. https://arxiv.org/pdf/2201.02533.pdf
[4] Borsos, Z., Sharifi, M. e Tagliasacchi, M., 2022. SpeechPainter: discurso condicionado a texto em pintura. https://arxiv.org/pdf/2202.07273.pdf
[5] Wang, X., Li, Y., Zhang, H. and Shan, Y., 2021. Towards real-world blind face restoration with generative facial prior. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 9168–9178), https://arxiv.org/pdf/2101.04061.pdf
[6] Piergiovanni, AJ, Casser, V., Ryoo, MS and Angelova, A., 2021. 4d-net for learned multi-modal alignment. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 15435–15445), https://openaccess.thecvf.com/content/ICCV2021/papers/Piergiovanni_4D-Net_for_Learned_Multi-Modal_Alignment_ICCV_2021_paper.pdf.
[7] Thomas Muller, Alex Evans, Christoph Schied and Alexander Keller, 2022, "Instant Neural Graphics Primitives with a Multiresolution Hash Encoding", https://nvlabs.github.io/instant-ngp/assets/mueller2022instant.pdf
[8] A. Ramesh et al., 2022, "Hierarchical Text-Conditional Image Generation with CLIP Latents", https://cdn.openai.com/papers/dall-e-2.pdf
[9] Nitzan, Y., Aberman, K., He, Q., Liba, O., Yarom, M., Gandelsman, Y., Mosseri, I., Pritch, Y. and Cohen-Or, D., 2022. MyStyle: A Personalized Generative Prior. arXiv preprint arXiv:2203.17272.
[10] Zhang, Susan et al. “OPT: Open Pre-trained Transformer Language Models.” https://arxiv.org/abs/2205.01068
[11] Epstein, D., Park, T., Zhang, R., Shechtman, E. and Efros, AA, 2022. BlobGAN: Spatially Disentangled Scene Representations. arXiv preprint arXiv:2205.02837.
[12] Reed S. et al., 2022, Deemind: Gato - A generalist agent, https://storage.googleapis.com/deepmind-media/A%20Generalist%20Agent/Generalist%20Agent.pdf
[13] Saharia et al., 2022, Google Brain, Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding, https://gweb-research-imagen.appspot.com/paper.pdf
[14] Dayma, et al., 2021, DALL·E Mini, doi:10.5281/zenodo.5146400
[15] NLLB Team et al., 2022, No Language Left Behind: Scaling Human-Centered Machine Translation
[16] Sheinin, Mark and Chan, Dorian and O'Toole, Matthew and Narasimhan, Srinivasa G., 2022, Dual-Shutter Optical Vibration Sensing, Proc. IEEE CVPR.
[17] Gafni, O., Polyak, A., Ashual, O., Sheynin, S., Parikh, D. and Taigman, Y., 2022. Make-a-scene: Scene-based text-to-image generation with human priors. https://arxiv.org/pdf/2203.13131.pdf
[18] Yang, G., Vo, M., Neverova, N., Ramanan, D., Vedaldi, A. and Joo, H., 2022. Banmo: Building animatable 3d neural models from many casual videos. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 2863-2873).
[19] Rombach, R., Blattmann, A., Lorenz, D., Esser, P. and Ommer, B., 2022. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 10684–10695), https://arxiv.org/pdf/2112.10752.pdf
[20] Yang, J., Ang, YZ, Guo, Z., Zhou, K., Zhang, W. and Liu, Z., 2022. Panoptic Scene Graph Generation. arXiv preprint arXiv:2207.11247.
[21] Gal, R., Alaluf, Y., Atzmon, Y., Patashnik, O., Bermano, AH, Chechik, G. and Cohen-Or, D., 2022. An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion.
[22] Ni, B., Peng, H., Chen, M., Zhang, S., Meng, G., Fu, J., Xiang, S. and Ling, H., 2022. Expanding Language-Image Pretrained Models for General Video Recognition. arXiv preprint arXiv:2208.02816.
[23] Singer et al. (Meta AI), 2022, “MAKE-A-VIDEO: TEXT-TO-VIDEO GENERATION WITHOUT TEXT-VIDEO DATA”, https://makeavideo.studio/Make-A-Video.pdf
[24] Radford, A., Kim, JW, Xu, T., Brockman, G., McLeavey, C. and Sutskever, I., Robust Speech Recognition via Large-Scale Weak Supervision.
[25] Poole, B., Jain, A., Barron, JT and Mildenhall, B., 2022. DreamFusion: Text-to-3D using 2D Diffusion. arXiv preprint arXiv:2209.14988.
[26] Kawar, B., Zada, S., Lang, O., Tov, O., Chang, H., Dekel, T., Mosseri, I. and Irani, M., 2022. Imagic: Text-Based Real Image Editing with Diffusion Models. arXiv preprint arXiv:2210.09276.
[27] Balaji, Y. et al., 2022, eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers, https://arxiv.org/abs/2211.01324
[28] Li, Z., Wang, Q., Snavely, N. and Kanazawa, A., 2022. InfiniteNature-Zero: Learning Perpetual View Generation of Natural Scenes from Single Images. In European Conference on Computer Vision (pp. 515–534). Springer, Cham, https://arxiv.org/abs/2207.11148
[29] Taylor et al., 2022: Galactica: A Large Language Model for Science, https://galactica.org/
[30] Tang, J., Wang, K., Zhou, H., Chen, X., He, D., Hu, T., Liu, J., Zeng, G. and Wang, J., 2022. Real-time Neural Radiance Talking Portrait Synthesis via Audio-spatial Decomposition. arXiv preprint arXiv:2211.12368.
[31] OpenAI, 2022: ChatGPT: Optimizing Language Models for Dialogue, https://openai.com/blog/chatgpt/
[32] Loss et al., DisneyResearch, 2022: FRAN, https://studios.disneyresearch.com/2022/11/30/production-ready-face-re-aging-for-visual-effects/