Mesmo com tudo o que aconteceu no mundo este ano, ainda tivemos a chance de ver muita pesquisa incrível. Especialmente no campo da inteligência artificial. Mais, muitos aspectos importantes foram destacados este ano, como os aspectos éticos, vieses importantes e muito mais. A inteligência artificial e nossa compreensão do cérebro humano e seu vínculo com a IA estão em constante evolução, mostrando aplicações promissoras no futuro.
Aqui estão os trabalhos de pesquisa mais interessantes do ano, caso você tenha perdido qualquer um deles. Em resumo, é basicamente uma lista com curadoria dos últimos avanços na IA e na Ciência dos Dados por data de lançamento com uma explicação clara de vídeo, link para um artigo mais aprofundado e código (se aplicável). Aproveite a leitura!
A referência completa a cada artigo está listada no final deste repositório.
Manter - Louisfb01
Inscreva -se no meu boletim informativo - as atualizações mais recentes da IA explicadas toda semana.
? Verifique o repo 2021!
Sinta -se à vontade para me enviar uma mensagem de ótimos papéis que eu perdi para adicionar a este repositório em [email protected]
Marque -me no Twitter @whats_ai ou LinkedIn @louis (o que é ai) Bouchard se você compartilhar a lista!
Os 10 principais documentos de visão computacional em 2020 com demos de vídeo, artigos, código e referência em papel.
10 Top 10 Documentos de Visão Computal 2020
? Se você deseja apoiar meu trabalho e usar a W&B (gratuitamente) para rastrear seus experimentos de ML e tornar seu trabalho reproduzível ou colaborar com uma equipe, você pode experimentá -lo seguindo este guia! Como a maior parte do código aqui é baseada em Pytorch, pensamos que um guia do QuickStart para o uso da W&B no Pytorch seria mais interessante de compartilhar.
Siga este guia rápido, use as mesmas linhas W&B em seu código ou qualquer um dos repositórios abaixo e tenha todas as suas experiências rastreadas automaticamente na sua conta W&B! Não leva mais de 5 minutos para se preparar e mudará sua vida como isso para mim! Aqui está um guia mais avançado para usar varreduras de hyperparameter se estiver interessado :)
? Obrigado a Weights & Baryes por patrocinar este repositório e o trabalho que tenho feito, e graças a qualquer um de vocês que use este link e tente W&B!
Esta quarta versão foi introduzida recentemente em abril de 2020 por Alexey Bochkovsky et al. No artigo "Yolov4: velocidade ideal e precisão da detecção de objetos". O principal objetivo desse algoritmo era criar um detector de objetos super rápido com alta qualidade em termos de precisão.
Agora você pode gerar imagens de rosto de alta qualidade a partir de esboços grosseiros ou até incompletos, com habilidades de desenho zero usando esta nova técnica de tradução de imagem para imagem! Se suas habilidades de desenho tão ruins quanto as minhas, você pode até ajustar o quanto os olhos, a boca e o nariz afetarão a imagem final! Vamos ver se realmente funciona e como eles fizeram isso.
A Gamegan, uma rede adversária generativa treinada em 50.000 episódios de Pac-Man, produz uma versão totalmente funcional do clássico de navegação de pontos sem um mecanismo de jogo subjacente.
Este novo algoritmo transforma uma imagem embaçada em uma imagem de alta resolução! Pode ter uma imagem de 16x16 de resolução super baixa e transformá-la em um rosto humano de alta definição de 1080p! Você não acredita em mim? Então você pode fazer como eu e experimentá -lo em menos de um minuto! Mas primeiro, vamos ver como eles fizeram isso.
Este novo modelo converte código de uma linguagem de programação para outra sem qualquer supervisão! Pode levar uma função python e traduzi-la em uma função C ++, e vice-versa, sem exemplos anteriores! Ele entende a sintaxe de cada idioma e, portanto, pode generalizar para qualquer linguagem de programação! Vamos ver como eles fizeram isso.
Esta IA gera reconstruções de alta resolução em 3D de pessoas a partir de imagens 2D! Ele só precisa de uma única imagem para gerar um avatar 3D que se parece com você, mesmo pelas costas!
Pesquisadores da Disney desenvolveram um novo algoritmo de troca de rosto de alta resolução para efeitos visuais no papel de mesmo nome. É capaz de renderizar resultados foto-realistas na resolução de megapixels. Trabalhando para a Disney, eles são certamente a melhor equipe para este trabalho. O objetivo deles é trocar a face de um ator -alvo de um ator de origem, mantendo o desempenho do ator. Isso é incrivelmente desafiador e é útil em muitas circunstâncias, como mudar a idade de um personagem, quando um ator não está disponível, ou mesmo quando envolve uma cena de dublê que seria muito perigosa para o ator principal realizar. As abordagens atuais exigem muita animação quadro a quadro e pós-processamento por profissionais.
Essa nova técnica pode alterar a textura de qualquer imagem, mantendo -se realista usando treinamento completo sem supervisão! Os resultados parecem ainda melhores do que o que Gans pode alcançar enquanto é muito mais rápido! Pode até ser usado para criar DeepFakes!
Os atuais sistemas de NLP de última geração lutam para generalizar para trabalhar em diferentes tarefas. Eles precisam ser ajustados nos conjuntos de dados de milhares de exemplos, enquanto os seres humanos só precisam ver alguns exemplos para executar uma nova tarefa de idioma. Esse foi o objetivo por trás do GPT-3, para melhorar a característica agnóstica da tarefa dos modelos de linguagem.
Esta IA pode preencher os pixels ausentes por trás de um objeto em movimento removido e reconstruir todo o vídeo com muito mais precisão e menos borracha do que as abordagens atuais de ponta!
Uma boa IA, como a usada no Gmail, pode gerar texto coerente e terminar sua frase. Este usa os mesmos princípios para concluir uma imagem! Tudo feito em um treinamento não supervisionado, sem rótulos necessários!
Esta IA pode desenhar qualquer imagem ou vídeo que você a alimenta no estilo de desenho animado que deseja! Vamos ver como isso faz isso e alguns exemplos incríveis. Você pode até experimentar você mesmo no site que eles criaram como eu!
Esse modelo de geração de rosto é capaz de transferir fotografias normais de rosto para estilos distintos, como o estilo de desenho animado de Lee Mal-Nyeon, os Simpsons, Arts e até cães! A melhor coisa dessa nova técnica é que ela é super simples e supera significativamente as técnicas anteriores usadas em Gans.
O algoritmo representa a pose e a forma do corpo como uma malha paramétrica que pode ser reconstruída a partir de uma única imagem e facilmente repôs. Dada a imagem de uma pessoa, elas são capazes de criar imagens sintéticas da pessoa em poses diferentes ou com roupas diferentes obtidas de outra imagem de entrada.
Seu objetivo era propor uma nova técnica para a pose humana 3D e a estimativa de malha de uma única imagem RGB. Eles chamaram de i2l-meshnet. Onde I2L significa imagem para lixel. Assim como um voxel, volume + pixel, é uma célula quantizada no espaço tridimensional, eles definiram lixel, uma linha e pixel, como uma célula quantizada no espaço unidimensional. O método deles supera os métodos anteriores e o código está disponível ao público!
https://github.com/mks0601/i2l-seshnet_release
A navegação guiada por idiomas é um campo amplamente estudado e muito complexo. De fato, pode parecer simples que um humano passe por uma casa para chegar ao seu café que você deixou na mesa de cabeceira à esquerda da sua cama. Mas é uma história totalmente outra para um agente, que é um sistema autônomo de AI usando o Deep Learning para executar tarefas.
O prêmio de melhor artigo do ECCV 2020 vai para a equipe de Princeton. Eles desenvolveram um novo modelo treinável de ponta a ponta para fluxo óptico. Seu método supera a precisão das arquiteturas de ponta em vários conjuntos de dados e é muito mais eficiente. Eles até disponibilizaram o código para todos no seu github!
Usando fotos públicas dos turistas da Internet, eles foram capazes de reconstruir vários pontos de vista de uma cena conservando as sombras e iluminação realistas! Este é um grande avanço das técnicas de última geração para a renderização de cenas fotorrealistas e seus resultados são simplesmente incríveis.
Imagine ter as fotos velhas, dobradas e até rasgadas da sua avó quando ela tinha 18 anos em alta definição com zero artefatos. Isso é chamado de restauração de fotos antiga e este artigo abriu uma avenida totalmente nova para resolver esse problema usando uma abordagem de aprendizado profundo.
Pesquisadores da IST Austria e MIT treinaram com sucesso um carro autônomo usando um novo sistema de inteligência artificial baseado no cérebro de pequenos animais, como os linhas de linhas. Eles conseguiram que, com apenas alguns neurônios capazes de controlar o carro autônomo, em comparação com os milhões de neurônios necessários para as populares redes neurais profundas, como recentes, resmésias ou VGG. Sua rede conseguiu controlar completamente um carro usando apenas 75.000 parâmetros, compostos por 19 neurônios de controle, em vez de milhões!
Uma equipe de pesquisadores da Adobe Research desenvolveu uma nova técnica para a síntese de transformação de idade com base em apenas uma imagem da pessoa. Ele pode gerar as imagens de vida útil a partir de qualquer foto que você a enviou.
Deoldify é uma técnica para colorizar e restaurar imagens em preto e branco velhas ou até filmes. Foi desenvolvido e ainda está sendo atualizado por apenas uma pessoa Jason Antic. Agora é o estado da maneira artística de colorizar imagens em preto e branco, e tudo é de código aberto, mas voltaremos a isso daqui a isso.
Como afirma o nome, ele usa Transformers para gerar descrições precisas de texto para cada sequência de um vídeo, usando o vídeo e uma descrição geral como entrada.
Esse método de tradução de imagem para pintura simula um pintor real em vários estilos usando uma nova abordagem que não envolve nenhuma arquitetura GAN, ao contrário de todas as abordagens atuais de ponta!
O coletor humano é uma tarefa extremamente interessante, onde o objetivo é encontrar qualquer humano em uma imagem e remover o fundo dela. É realmente difícil de alcançar devido à complexidade da tarefa, tendo que encontrar a pessoa ou as pessoas com o contorno perfeito. Neste post, reviso as melhores técnicas usadas ao longo dos anos e uma nova abordagem publicada em 29 de novembro de 2020. Muitas técnicas estão usando algoritmos básicos de visão computacional para realizar essa tarefa, como o algoritmo Grabcut, que é extremamente rápido, mas não muito preciso.
Com este novo método de treinamento desenvolvido pela NVIDIA, você pode treinar um poderoso modelo generativo com um décimo das imagens! Possibilitando muitos aplicativos que não têm acesso a tantas imagens!
Com este novo método de treinamento desenvolvido pela NVIDIA, você pode treinar um poderoso modelo generativo com um décimo das imagens! Possibilitando muitos aplicativos que não têm acesso a tantas imagens!
Esse novo método é capaz de gerar uma cena tridimensional completa e tem a capacidade de decidir a iluminação da cena. Tudo isso com custos de computação muito limitados e resultados surpreendentes em comparação com abordagens anteriores.
? Verifique o repo 2021!
Marque -me no Twitter @whats_ai ou LinkedIn @louis (o que é ai) Bouchard se você compartilhar a lista!
[1] A. Bochkovskiy, C.-Y. Wang e H.-Hy Liao, Yolov4: velocidade e precisão ideais da detecção de objetos, 2020. Arxiv: 2004.10934 [cs.cv].
[2] S.-Y. Chen, W. Su, L. Gao, S. Xia e H. Fu, "DeepFacacedrawing: Generation Deep of Face Images from Sketches", Transações ACM em gráficos (Proceedings of ACM Sigraph2020), vol. 39, não. 4, 72: 1–72: 16, 2020.
[3] SW Kim, Y. Zhou, J. Philion, A. Torralba e S. Fidler, "Aprendendo a simular Dynamicenvironments com Gamegan", na conferência IEEE sobre visão computacional e reconhecimento de padrões (CVPR), junho de 2020.
[4] S. Menon, A. Damian, S. Hu, N. Ravi e C. Rudin, Pulse: Upsponspling de fotos auto-supervisionadas por meio da exploração espacial latente de modelos generativos, 2020. ARXIV: 2003.03808 [CS.CV].
[5] M.-A. Lachaux, B. Roziere, L. Chanussot e G. Lample, tradução não supervisionada de linguagens de programação, 2020. Arxiv: 2006.03511 [cs.cl].
[6] S. Saito, T. Simon, J. Saragih e H. Joo, Pifuhd: Função implícita de vários níveis alinhada com pixels para digitalização humana 3D de alta resolução, 2020. ARXIV: 2004.00452 [cs.cv].
[7] J. Naruniec, L. Helminger, C. Schroers e R. Weber, "Troca de rosto neural de alta resolução para efeitos visuais", Computer Graphics Forum, vol. 39, pp. 173-184, jul. 2020.doi: 10.1111/cgf.14062.
[8] T. Park, J.-Y. Zhu, O. Wang, J. Lu, E. Shechtman, AA Efros e R. Zhang, SwappingautoEncoder para manipulação de imagem profunda, 2020. Arxiv: 2007.00653 [cs.cv].
[9] TB Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P.Shyam, G. Sastry, A. Askell, S. Agarwal, A. Herbert- Voss, G. Krueger, T. Henighan, R. Child, A. Ramesh, DM Ziegler, J. Wu, C. Winter, C. Hesse, M. Chen, E. Sigler, M. Litwin, S.Gray, B. Chess, J. Clark, C. Berner, S. McCandlish, A. Radford, I. Sutskever e D. Amodei, "Modelos de idiomas são poucos alunos", 2020 Arxiv: 2005.14165 [cs.cl].
[10] Y. Zeng, J. Fu e H. Chao, Aprendendo transformações espaciais-temporais conjuntas para pintura em vídeo, 2020. Arxiv: 2007.10247 [cs.cv].
[11] M. Chen, A. Radford, R. Child, J. Wu, H. Jun, D. Luan e I. Sutskever, "Pré -treinamento generativo de pixels", em Anais da 37ª Conferência Internacional sobre Aprendizagem de Máquina, HD III e A. Singh, orgs., Ser. Anais da Machine Learning Research, vol. 119, Virtual: PMLR, 13-18 de julho de 2020, pp. 1691-1703. [On-line]. Disponível: http: //proecedings.mlr.press/v119/chen20.html.
[12] Xinrui Wang e Jinze Yu, "Aprendendo a desenhar cartoonizar usando representações de desenhos animados de caixa branca.", Conferência do IEEE sobre visão computacional e reconhecimento de padrões, junho de 2020.
[13] S. Mo, M. Cho e J. Shin, congelam o discriminador: uma linha de base simples para Gans de ajuste fino, 2020. ARXIV: 2002.10964 [CS.CV].
[14] K. Sarkar, D. Mehta, W. Xu, V. Golyanik e C. Theobalt, "Re-renderização neural de seres humanos de uma única imagem", na Conferência Europeia sobre Visão Computador (ECCV), 2020.
[15] G. Moon e KM Lee, "I2L-Meshnet: Rede de Previsão de Imagem em Lixel para obter uma pose humana 3D precisa e a estimativa de malha de uma única imagem RGB", na Conferência Europeia sobre ComputVision (ECCV), 2020
[16] J. Krantz, E. Wijmans, A. Majumdar, D. Batra e S. Lee, "Além do Graph: Navegação de Visão e Languagem em ambientes contínuos", 2020. Arxiv: 2004.02857 [CS. CV].
[17] Z. TEED e J. Deng, RAFT: Transformações recorrentes de campo de todos os pares para fluxo óptico, 2020. Arxiv: 2003.12039 [cs.cv].
[18] Z. Li, W. Xian, A. Davis e N. Snavely, "CrowdsmoMpling the Plenoptic Função", Inproc. Euréias Conferência sobre Visão Computador (ECCV), 2020.
[19] Z. Wan, B. Zhang, D. Chen, P. Zhang, D. Chen, J. Liao e F. Wen, Restauração de fotos antiga via tradução de espaço latente profundo, 2020. Arxiv: 2009.07047 [Cs.cv ].
[20] Lechner, M., Hasani, R., Amini, A. et al. Políticas de circuito neural que permitem autonomia audível. Nat Mach Intell 2, 642-652 (2020). https://doi.org/10.1038/s42256-020-00237-3
[21] R. Or-El, S. Sengupta, O. Fried, E. Shechtman e I. Kemelmacher-Shlizerman, "Síntese de transformação de vida útil", em Anais da Conferência Europeia sobre Visão Computal (ECCV), 2020.
[22] Jason Antic, criador de Deoldify, https://github.com/jantic/deoldify
[23] S. Ging, M. Zolfaghari, H. Pirsiavash e T. Brox, "Coot: Transformador hierárquico cooperativo para aprendizado de representação de texto em vídeo" em conferência sobre processamento de informações neurais, sistemas, 2020.
[24] Z. Zou, T. Shi, S. Qiu, Y. Yuan e Z. Shi, pintura neural estilizada, 2020. Arxiv: 2011.08114 [cs.cv].
[25] Z. Ke, K. Li, Y. Zhou, Q. Wu, X. Mao, Q. Yan e RW Lau "é uma tela verde realmente necessária para o retrato em tempo real?" Arxiv, vol. ABS/2011.11961, 2020.
[26] T. Karras, M. Aittala, J. Hellsten, S. Laine, J. Lehtinen e T. Aila, Treinando redes adversárias generativas com dados limitados, 2020. Arxiv: 2006.06676 [cs.cv].
[27] Ja Weyn, Dr. Durran e R. Caruana, "Melhorando a previsão global global orientada a dados usando profundas redes neurais convolucionais em uma esfera em cubos", Journal of Advances in Modeling Earth Systems, vol. 12, não. 9 de setembro de 2020, ISSN: 1942-2466.DOI: 10.1029/2020MS002109
[28] PP Srinivasan, B. Deng, X. Zhang, M. Tancik, B. Mildenhall e JT Barron, "Nerv: Campos de refletância neural e visibilidade para relembrar e ver a síntese", em Arxiv, 2020.