올해 세계에서 일어난 모든 일에도 불구하고, 우리는 여전히 놀라운 연구가 나오는 것을 볼 수있는 기회를 가졌습니다. 특히 인공 지능 분야에서. 더 많은 중요한 측면이 윤리적 측면, 중요한 편견 등과 같이 올해 많은 중요한 측면이 강조되었습니다. 인공 지능과 인간 뇌에 대한 우리의 이해와 AI와의 연관성은 끊임없이 발전하고 있으며, 곧 미래에 유망한 응용을 보여줍니다.
다음은 올해의 가장 흥미로운 연구 논문입니다. 요컨대, 기본적으로 명확한 비디오 설명,보다 심층적 인 기사에 대한 링크 및 코드 (해당되는 경우)로 릴리스 날짜까지 AI 및 데이터 과학의 최신 혁신 목록입니다. 읽기를 즐기십시오!
각 용지에 대한 전체 참조는이 저장소의 끝에 나열되어 있습니다.
관리자 -LouISpB01
내 뉴스 레터 구독 - AI의 최신 업데이트는 매주 설명되었습니다.
? 2021 Repo를 확인하십시오!
[email protected] 에서이 저장소에 추가하기 위해 놓친 훌륭한 서류를 보내 주시기 바랍니다.
Twitter @whats_ai 또는 linkedin @louis (AI) bouchard에 저를 태그하십시오. 목록을 공유하면!
2020 년 비디오 데모, 기사, 코드 및 종이 참조가 포함 된 10 대 컴퓨터 비전 논문.
Top 10 Computer Vision Papers 2020
? 내 작업을 지원 하고 W & B (무료로)를 사용하여 ML 실험을 추적하고 팀과의 작업을 재현 가능하거나 협력하게하려면이 안내서를 따르면 시도해 볼 수 있습니다! 여기의 대부분의 코드는 Pytorch 기반이므로 Pytorch에서 W & B를 사용하기위한 빠른 스타트 가이드가 공유하기에 가장 흥미 로울 것이라고 생각했습니다.
이 빠른 가이드를 따르고 코드 또는 아래의 저장소에서 동일한 W & B 라인을 사용하고 W & B 계정에서 모든 실험을 자동으로 추적하도록하십시오! 설치하는 데 5 분 이상 걸리지 않으며 나와 같이 인생을 바꿀 것입니다! 관심이있는 경우 하이퍼 파라미터 스윕을 사용하기위한보다 고급 가이드가 있습니다. :)
? 이 저장소와 내가하고있는 일을 후원 해 주신 Headits & Biases에 감사드립니다.이 링크를 사용하고 W & B를 시도하는 분들 덕분에!
이 4 번째 버전은 최근 2020 년 4 월 Alexey Bochkovsky et al. 논문에서 "YOLOV4 : 객체 감지의 최적 속도와 정확도". 이 알고리즘의 주요 목표는 정확도 측면에서 고속 품질의 초고속 객체 탐지기를 만드는 것이 었습니다.
이제이 새로운 이미지-이미지 번역 기술을 사용하여 제로 드로잉 기술로 거칠거나 불완전한 스케치에서 고품질 얼굴 이미지를 생성 할 수 있습니다! 드로잉 기술이 내 것만 큼 나쁘다면 눈, 입 및 코가 최종 이미지에 얼마나 영향을 미치는지 조정할 수도 있습니다! 그것이 실제로 작동하는지 그리고 그들이 어떻게했는지 봅시다.
50,000 개의 Pac-Man 에피소드에서 훈련 된 생식 적대 네트워크 인 Gamegan은 기본 게임 엔진 없이도 Dot-Munching Classic의 완벽한 기능 버전을 제작합니다.
이 새로운 알고리즘은 흐릿한 이미지를 고해상도 이미지로 변환합니다! 초 저소수 16x16 이미지를 가져 와서 1080p 고화질 인간 얼굴로 바꿀 수 있습니다! 당신은 나를 믿지 않습니까? 그러면 당신은 나와 같은 일을하고 1 분 안에 스스로 시도 할 수 있습니다! 그러나 먼저, 그들이 어떻게했는지 봅시다.
이 새로운 모델은 감독없이 코드를 프로그래밍 언어에서 다른 언어로 변환합니다! 파이썬 기능을 취하고 이전 예제없이 C ++ 함수로 변환 할 수 있습니다! 각 언어의 구문을 이해하고 모든 프로그래밍 언어로 일반화 할 수 있습니다! 그들이 어떻게했는지 봅시다.
이 AI는 2D 이미지에서 사람들의 3D 고해상도 재구성을 생성합니다! 뒷면에서도 당신처럼 보이는 3D 아바타를 생성하기 위해 단일 이미지 만 있으면됩니다!
Disney의 연구원들은 같은 이름의 논문의 시각 효과에 대한 새로운 고해상도 얼굴 스왑 알고리즘을 개발했습니다. 메가 픽셀 해상도에서 사진 현실적인 결과를 렌더링 할 수 있습니다. 디즈니에서 일하면서 그들은이 작품에 가장 적합한 팀입니다. 그들의 목표는 배우의 공연을 유지하면서 소스 배우의 대상 배우의 얼굴을 교환하는 것입니다. 이것은 엄청나게 도전적이며 캐릭터의 나이를 바꾸거나 배우를 사용할 수 없거나 메인 배우가 공연하기에는 너무 위험한 스턴트 장면을 포함하는 것과 같은 많은 상황에서 유용합니다. 현재 접근 방식에는 전문가가 많은 프레임 별 애니메이션 및 후 처리가 필요합니다.
이 새로운 기술은 완전히 감독되지 않은 훈련을 사용하여 현실적으로 유지하면서 모든 그림의 질감을 바꿀 수 있습니다! 결과는 Gans가 더 빨리 달성하면서 달성 할 수있는 것보다 훨씬 좋아 보입니다! 심지어 심해를 만드는 데 사용될 수도 있습니다!
현재의 최첨단 NLP 시스템은 다양한 작업을 수행하기 위해 일반화하기 위해 노력하고 있습니다. 그들은 수천 가지 예제의 데이터 세트에 미세 조정해야하지만 인간은 새로운 언어 작업을 수행하기 위해 몇 가지 예만 볼 필요가 있습니다. 이것은 언어 모델의 작업에 대한 특성을 향상시키기위한 GPT-3의 목표였습니다.
이 AI는 제거 된 움직이는 객체 뒤에 누락 된 픽셀을 채울 수 있으며 현재 최첨단 접근 방식보다 전체 비디오를보다 정확하고 흐릿함으로 재구성 할 수 있습니다!
Gmail에 사용 된 것과 같은 좋은 AI는 일관된 텍스트를 생성하고 문구를 완성 할 수 있습니다. 이것은 이미지를 완성하기 위해 동일한 원칙을 사용합니다! 모든 것은 감독되지 않은 훈련에서 전혀 필요하지 않은 훈련에서 이루어졌습니다!
이 AI는 원하는 만화 스타일로 먹이를 먹을 수 있습니다! 그것이 어떻게하는지, 놀라운 예를 봅시다. 내가 스스로 한 것처럼 그들이 만든 웹 사이트에서 직접 시도 할 수도 있습니다!
이 얼굴 생성 모델은 정상적인 얼굴 사진을 Lee Mal-Nyon의 만화 스타일, Simpsons, Arts 및 Dogs와 같은 독특한 스타일로 옮길 수 있습니다! 이 새로운 기술의 가장 좋은 점은 매우 간단하고 GAN에 사용 된 이전 기술보다 훨씬 능숙하다는 것입니다.
알고리즘은 단일 이미지로부터 재구성되고 쉽게 다시 구축 될 수있는 파라 메시 메쉬로 바디 포즈와 모양을 나타냅니다. 사람의 이미지가 주어지면, 다른 입력 이미지에서 얻은 다른 포즈 나 다른 의류로 사람의 합성 이미지를 만들 수 있습니다.
그들의 목표는 단일 RGB 이미지에서 3D 인간 포즈 및 메쉬 추정을위한 새로운 기술을 제안하는 것이 었습니다. 그들은 그것을 i2l-meshnet이라고 불렀습니다. 여기서 i2L은 이미지--릭셀을 나타냅니다. 복셀과 마찬가지로 부피 + 픽셀과 마찬가지로 3 차원 공간에서 양자화 된 세포이며, 이들은 1 차원 공간에서 양자화 된 세포로 Lixel, A 라인 및 픽셀을 정의했습니다. 그들의 방법은 이전 방법을 능가하고 코드는 공개적으로 사용할 수 있습니다!
https://github.com/mks0601/i2l-meshnet_release
언어 유도 내비게이션은 널리 연구 된 분야이며 매우 복잡한 분야입니다. 실제로, 인간이 집을 걸어 가서 침대 왼쪽에 스탠드에 남긴 커피를 마시는 것이 단순 해 보일 수 있습니다. 그러나 이는 에이전트의 다른 이야기입니다.이 상담원은 딥 러닝을 사용하여 작업을 수행하는 자율 AI 중심 시스템입니다.
ECCV 2020 Best Paper Award는 Princeton Team에갑니다. 그들은 광학 흐름을위한 새로운 엔드 투 엔드 훈련 가능한 모델을 개발했습니다. 그들의 방법은 여러 데이터 세트에서 최첨단 아키텍처의 정확성을 능가하며 더 효율적입니다. 그들은 심지어 github의 모든 사람들이 코드를 사용할 수있게했습니다!
인터넷에서 관광객의 공개 사진을 사용하여 현실적인 그림자와 조명을 보존하는 장면의 여러 관점을 재구성 할 수있었습니다! 이것은 사진 릴리스트 장면 렌더링을위한 최첨단 기술의 큰 발전이며 그 결과는 단순히 놀랍습니다.
할머니가 18 살 때 제로 인공물로 고화질 된 고화질로 늙고 접었고 심지어 찢어진 사진을 상상해보십시오. 이것을 오래된 사진 복원이라고 하며이 백서는 딥 러닝 접근법을 사용 하여이 문제를 해결하기 위해 완전히 새로운 길을 열었습니다.
IST 오스트리아와 MIT의 연구원들은 실 벌레와 같은 작은 동물의 뇌를 기반으로 한 새로운 인공 지능 시스템을 사용하여 자율 주행 차를 성공적으로 훈련 시켰습니다. 그들은 몇 가지 뉴런만으로자가 운전 차량을 제어 할 수있는 몇 가지 뉴런만으로, 인용, 수단 또는 VGG와 같은 인기있는 깊은 신경 네트워크에 필요한 수백만 개의 뉴런과 비교할 때 달성했습니다. 그들의 네트워크는 수백만 대가 아닌 19 개의 대조군 뉴런으로 구성된 75,000 개의 매개 변수 만 사용하여 자동차를 완전히 제어 할 수있었습니다!
Adobe Research의 연구원 팀은 사람의 한 그림만을 기반으로 연령 변환 합성을위한 새로운 기술을 개발했습니다. 보낸 모든 사진에서 수명 사진을 생성 할 수 있습니다.
Deoldify는 오래된 흑백 이미지 또는 필름 장면을 채색하고 복원하는 기술입니다. 그것은 개발되었으며 여전히 한 사람 Jason Antic 만 업데이트되고 있습니다. 이제는 흑백 이미지를 채색하는 최신의 방법이며 모든 것이 개방적이지만 우리는 이것으로 돌아갈 것입니다.
이름이 지정된 바와 같이 변압기를 사용하여 비디오의 일반적인 설명을 모두 사용하여 비디오의 각 시퀀스에 대한 정확한 텍스트 설명을 생성합니다.
이 이미지 대 페인팅 번역 방법은 현재의 모든 최첨단 접근 방식과 달리 GAN 아키텍처를 포함하지 않는 새로운 접근 방식을 사용하여 여러 스타일의 실제 화가를 시뮬레이션합니다!
인간 매트는 목표가 그림에서 인간을 찾고 배경을 제거하는 것이 매우 흥미로운 작업입니다. 과제의 복잡성으로 인해 달성하기가 어렵고 완벽한 윤곽선을 가진 사람이나 사람을 찾아야합니다. 이 게시물에서는 수년에 걸쳐 사용 된 최고의 기술과 2020 년 11 월 29 일에 출판 된 새로운 접근법을 검토합니다. 많은 기술이 기본 컴퓨터 비전 알고리즘을 사용 하여이 작업을 달성하고 있습니다. 매우 정확합니다.
Nvidia가 개발 한이 새로운 교육 방법을 사용하면 이미지의 10 분의 1이있는 강력한 생성 모델을 훈련시킬 수 있습니다! 많은 이미지에 액세스 할 수없는 많은 응용 프로그램을 가능하게합니다!
Nvidia가 개발 한이 새로운 교육 방법을 사용하면 이미지의 10 분의 1이있는 강력한 생성 모델을 훈련시킬 수 있습니다! 많은 이미지에 액세스 할 수없는 많은 응용 프로그램을 가능하게합니다!
이 새로운 방법은 완전한 3 차원 장면을 생성 할 수 있으며 장면의 조명을 결정할 수 있습니다. 이 모든 것은 이전 접근 방식에 비해 매우 제한된 계산 비용과 놀라운 결과를 갖습니다.
? 2021 Repo를 확인하십시오!
Twitter @whats_ai 또는 linkedin @louis (AI) bouchard에 저를 태그하십시오. 목록을 공유하면!
[1] A. Bochkovskiy, C.-Y. Wang 및 H.-ym Liao, Yolov4 : 객체 감지의 최적 속도와 정확도 2020. Arxiv : 2004.10934 [C.CV].
[2] S.-Y. Chen, W. Su, L. Gao, S. Xia 및 H. Fu, "DeepfacedRawing : Sketches의 깊은 세대 이미지", 그래픽에 대한 ACM 트랜잭션 (ACM SIGGRAPH2020), vol. 39, 아니요. 4, 72 : 1–72 : 16, 2020.
[3] SW Kim, Y. Zhou, J. Philion, A. Torralba 및 S. Fidler, "컴퓨터 비전 및 패턴 인식에 관한 IEEE 회의 (CVPR), 2020 년 6 월.
[4] S. Menon, A. Damian, S. Hu, N. Ravi 및 C. Rudin, Pulse : 생성 모델의 잠재 우주 탐색을 통한 자체 감독 사진 업 샘플링, 2020. Arxiv : 2003.03808 [C.CV].
[5] M.-A. Lachaux, B. Roziere, L. Chanussot 및 G. Lample, 프로그래밍 언어의 감독되지 않은 번역, 2020. Arxiv : 2006.03511 [Cs.Cl].
[6] S. Saito, T. Simon, J. Saragih 및 H. Joo, Pifuhd : 고해상도 3D 인간 디지털화에 대한 다단계 픽셀 정렬 함정, 2020. Arxiv : 2004.00452 [Cs.CV].
[7] J. Naruniec, L. Helminger, C. Schroers 및 R. Weber, "시각 효과를위한 고해상도 신경 얼굴 스왑", Computer Graphics Forum, Vol. 39, pp. 173–184, 7 월 2020 년 7 월 : 10.1111/cgf.14062.
[8] T. Park, J.-Y. Zhu, O. Wang, J. Lu, E. Shechtman, Aa Efros 및 R. Zhang, 깊은 이미지 조작을위한 SwappingAutoencoder, 2020. Arxiv : 2007.00653 [C.CV].
[9] TB Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P.Shyam, G. Sastry, A. Askell, S. Agarwal, A. Herbert- Voss, G. Krueger, T. Henighan, R. Child, A. Ramesh, DM Ziegler, J. Wu, C. Winter, C. Hesse, M. Chen, E. Sigler, M. Litwin, S.Gray, B. Chess, J. Clark, C. Berner, S. McCandlish, A. Radford, I. Sutskever 및 D. Amodei, "언어 모델은 소수의 학습자"2020 arxiv : 2005.14165 [cs.cl].
[10] Y. Zeng, J. Fu 및 H. Chao, 비디오 내 성형을위한 공동 공간-일시적 변환 학습, 2020. Arxiv : 2007.10247 [Cs.CV].
[11] M. Chen, A. Radford, R. Child, J. Wu, H. Jun, D. Luan 및 I. Sutskever, "픽셀의 생성 전 사전 조정", 37 번째 기계 학습에 관한 국제 회의의 절차. HD III 및 A. Singh, eds., Ser. 기계 학습 연구 절차, vol. 119, 가상 : PMLR, 2020 년 7 월 13 일, 1691-1703 쪽. [온라인]. 사용 가능 : http : //proceedings.mlr.press/v119/chen20s.html.
[12] Xinrui Wang과 Jinze Yu, "화이트 박스 만화 표현을 사용하여 만화를 배우는 법을 배우십시오.", 2020 년 6 월 컴퓨터 비전 및 패턴 인식에 관한 IEEE 회의.
[13] S. Mo, M. Cho 및 J. Shin, 식별기를 동결시킨다 : 미세 조정 Gans의 간단한 기준, 2020. ARXIV : 2002.10964 [CS.CV].
[14] K. Sarkar, D. Mehta, W. Xu, V. Golyanik 및 C. Theobalt, "Computer Vision에 관한 유럽 회의 (ECCV)에서"단일 이미지에서 인간의 신경 렌더링 ", 2020.
[15] G. Moon and Km Lee, "I2L 메시 넷 : 단일 RGB 이미지의 정확한 3D 인간 포즈 및 메쉬 추정을위한 이미지--릭셀 예측 네트워크", 유럽 Computervision (ECCV), 2020
[16] J. Krantz, E. Wijmans, A. Majumdar, D. Batra 및 S. Lee, "Nav-Graph를 넘어서 : 연속 환경에서의 비전 및 언어 내비게이션,"2020. Arxiv : 2004.02857 [cs. CV].
[17] Z. Teed and J. Deng, Raft : 반복적 인 All-Pairs 필드는 광학 흐름을위한 변환, 2020. Arxiv : 2003.12039 [C.CV].
[18] Z. Li, W. Xian, A. Davis 및 N. Snavely, "Plenoptic 기능을 크라우드 샘플링하는"Inproc.european Conference on Computer Vision (ECCV), 2020.
[19] Z. Wan, B. Zhang, D. Chen, P. Zhang, D. Chen, J. Liao 및 F. Wen, 깊은 잠복 우주 번역을 통한 오래된 사진 복원, 2020. Arxiv : 2009.07047 [C.CV ].
[20] Lechner, M., Hasani, R., Amini, A. et al. 감사 가능한 자율성을 가능하게하는 신경 회로 정책. Nat Mach Intell 2, 642–652 (2020). https://doi.org/10.1038/s42256-020-00237-3
[21] R. Or-El, S. Sengupta, O. Fried, E. Shechtman 및 I. Kemelmacher-Shlizerman, "생명 전환 합성", 유럽 컴퓨터 비전 (ECCV), 2020.
[22] Deoldify의 제작자 인 Jason Antic, https://github.com/jantic/deoldify
[23] S. Ging, M. Zolfaghari, H. Pirsiavash 및 T. Brox, "Coot : 비디오 텍스트 표현 학습을위한 협력 계층 적 트랜스 포어", 2020 년 신경 정보 프로세스 시스템 회의에서.
[24] Z. Zou, T. Shi, S. Qiu, Y. Yuan 및 Z. Shi, 양식화 신경 회화, 2020. Arxiv : 2011.08114 [C.CV].
[25] Z. Ke, K. Li, Y. Zhou, Q. Wu, X. Mao, Q. Yan 및 RW Lau는 "실시간 초상화 매트에 실제로 필요한 녹색 화면입니까?" Arxiv, vol. ABS/2011.11961, 2020.
[26] T. Karras, M. Aittala, J. Hellsten, S. Laine, J. Lehtinen 및 T. Aila, 제한된 데이터를 갖춘 생성 적대 네트워크, 2020. Arxiv : 2006.06676 [C.CV].
[27] Ja Weyn, Dr. Durran 및 R. Caruana, "입방체 구체에서 깊은 컨볼 루션 신경 네트워크를 사용하여 데이터 중심의 글로벌 날씨 예측 개선", Modeling Earth Systems의 Advances, vol. 12, 아니오. 2020 년 9 월 9 일, ISSN : 1942–2466.DOI : 10.1029/2020ms002109
[28] pp Srinivasan, B. Deng, X. Zhang, M. Tancik, B. Mildenhall 및 JT Barron, "신경 : 신경 반사 및 시야 합성을위한 신경 반사 및 가시성 필드", 2020 년 Arxiv.