세계가 여전히 회복되고 있지만 연구는 특히 인공 지능 분야에서 열광적 인 속도를 늦추지 않았습니다. 더, 윤리적 측면, 중요한 편견, 거버넌스, 투명성 등과 같은 많은 중요한 측면이 올해 강조되었습니다. 인공 지능과 인간의 두뇌에 대한 우리의 이해와 AI와의 연관성은 끊임없이 발전하여 가까운 미래에 우리의 삶의 질을 향상시키는 유망한 응용 프로그램을 보여줍니다. 그럼에도 불구하고, 우리는 어떤 기술을 적용하기로 선택 해야하는지 조심해야합니다.
"과학은 우리가해야 할 일, 우리가 할 수있는 일만 말할 수 없습니다."
-Jean-Paul Sartre, 존재 및 아무것도
다음은 명확한 비디오 설명,보다 심층적 인 기사에 대한 링크 및 코드 (해당되는 경우)로 출시 날짜까지 AI 및 데이터 과학의 최신 혁신 목록입니다. 읽기를 즐기십시오!
각 용지에 대한 전체 참조는이 저장소의 끝에 나열되어 있습니다. 이 저장소를 주연시키고 내년에 계속 지켜봐 주시기 바랍니다! 켈
관리자 : LouisfB01, YouTube에서 AII에 대해 더보고 싶거나 듣고 싶다면 YouTube 및 Podcaster로 활동하십시오!
내 뉴스 레터 구독 - AI의 최신 업데이트는 매주 설명되었습니다.
이 저장소에 추가하기 위해 놓친 흥미로운 용지를 저에게 메시지를 보내주십시오.
Twitter @whats_ai 또는 linkedin @louis (AI) bouchard에 저를 태그하십시오. 목록을 공유하면! 그리고 우리의 Learn AI에서 불화 커뮤니티에서 우리와 대화를 나누십시오!
? 내 작업을 지원하려면 이 저장소를 후원하거나 Patreon에서 저를 지원할 수 있습니다.
당신은이 상황을 한 번에 한 번 경험했습니다. 당신은 친구와 멋진 사진을 찍고 누군가가 당신 뒤에 광택을 내며 미래의 Instagram 게시물을 망치고 있습니다. 글쎄, 그것은 더 이상 문제가 아닙니다. 사진을 망치는 셀카를 찍기 전에 제거하는 것을 잊어 버린 사람이나 쓰레기통입니다. 이 AI는 이미지에서 바람직하지 않은 개체 또는 사람을 자동으로 제거하고 게시물을 저장합니다. 그것은 당신의 주머니에있는 전문 포토샵 디자이너와 같습니다.
이미지의 일부를 제거하고 뒤에 나타나야하는 것으로 바꾸는이 작업은 많은 AI 연구자들이 오랫동안 해결되었습니다. 그것은 이미지 인화라고 불리며, 매우 도전적입니다 ...
당신은 Samuel L Jackson과 Will Smith가 훨씬 더 젊은 것처럼 보이는 최근 Captain Marvel 또는 Gemini Man과 같은 영화를 가장 많이 보았습니다. 이를 위해서는 자신이 나타난 장면을 수동으로 편집하는 전문가로부터 수천 시간의 작업이 필요하지 않으면 수백 개의 작업이 필요합니다. 대신 간단한 AI를 사용하여 몇 분 안에 수행 할 수 있습니다. 실제로, 많은 기술을 사용하면 미소를 추가하고 AI 기반 알고리즘을 자동으로 사용하여 젊거나 나이가 들게 만들 수 있습니다. 비디오에서 AI 기반 얼굴 조작이라고하며 2022 년의 현재 최신 기술이 있습니다!
신경 렌더링. 신경 렌더링은 물체, 사람 또는 관심 장면의 그림에서 이와 같은 우주에서 사진 모델을 생성하는 능력입니다. 이 경우, 당신은이 조각품의 소수의 사진을 가지고 있고 기계 에이 그림의 물체가 우주에서 어떻게 보일지 이해하도록 요청할 것입니다. 당신은 기본적으로 기계에 물리학과 모양을 이미지에서 이해하도록 요청하고 있습니다. 실제 세계와 깊이 만 알고 있기 때문에 이것은 매우 쉽지만 픽셀 만 보는 기계의 다른 도전입니다. 생성 된 모델이 현실적인 모양으로 정확하게 보이지만 새로운 장면에서 어떻게 혼합되는지는 어떻습니까? 그리고 촬영 한 그림에서 조명 조건이 다양하고 생성 된 모델이 보는 각도에 따라 다르게 보이면 어떻게해야합니까? 이것은 자동으로 우리에게 이상하고 비현실적으로 보일 것입니다. 이것들은 Snapchat과 Southern California University 가이 새로운 연구에서 공격 한 과제입니다.
우리는 이미지가 피해를 입었습니다. 이는 그림에서 바람직하지 않은 객체를 제거하는 것을 목표로합니다. 머신 러닝 기반 기술은 단순히 객체를 제거하는 것이 아니라 그림을 이해하고 이미지의 누락 된 부분을 배경의 모습으로 채우는 것입니다. 최근의 발전은 결과와 마찬가지로 믿어지지 않으며,이 수용 작업은 광고와 같은 많은 응용 프로그램에 매우 유용하거나 향후 Instagram 게시물을 개선 할 수 있습니다. 우리는 또한 더 어려운 작업을 다루었습니다. 비디오 인화는 동일한 프로세스가 비디오에 적용되어 객체 나 사람을 제거합니다.
비디오의 도전은 버그가있는 아티팩트없이 프레임에서 프레임으로 일관되게 유지됩니다. 그러나 지금, 우리가 영화에서 사람을 올바르게 제거하고 사운드가 여전히 존재한다면 어떻게 되나요? 글쎄, 우리는 유령을 듣고 우리의 모든 일을 망칠 수 있습니다.
이것은 내가 채널에서 다루지 않은 작업이 들어오는 곳입니다 : Speech Inpainting. Google의 연구원들은 방금 연설을하는 것을 목표로하는 논문을 발표했으며, 우리가 볼 수 있듯이 결과는 상당히 인상적입니다. 좋아, 우리는 결과를 보는 것보다 오히려들을 수도 있지만, 당신은 요점을 얻습니다. 문법, 발음을 교정하거나 배경 노이즈를 제거 할 수도 있습니다. 내가 계속 노력해야하는 모든 것, 또는 단순히 그들의 새로운 모델을 사용하는 것만으로도… 내 비디오의 예를 들어보세요!
당신은 또한 나이가 들지 않았거나 당신이나 부모님이 고품질의 이미지를 만들기 전에 찍은 자신이나 가까운 사진을 가지고 있습니까? 나는 그렇게하고, 그 기억이 영원히 손상된 것처럼 느꼈습니다. 소년, 내가 틀렸어!
이 새롭고 완전 무료 AI 모델은 대부분의 오래된 사진을 잠시 고칠 수 있습니다. 매우 낮거나 고품질 입력에서도 잘 작동하며 일반적으로 상당히 어려운 일입니다.
이번 주 논문은 생성 된 얼굴 사전과 함께 실제 맹인 얼굴 복원을 향해 잊어 버렸습니다. 더 시원한 것은 직접 그리고 선호하는 방식으로 시도 할 수 있다는 것입니다. 그들은 코드를 오픈 소싱했으며 지금 당장 시도 할 수있는 데모 및 온라인 응용 프로그램을 만들었습니다. 위에서 본 결과가 충분히 설득력이 없다면 비디오를보고 의견에서 어떻게 생각하는지 알려주세요.
자율 주행 차량은 어떻게 보입니까?
당신은 아마도 Lidar 센서 또는 그들이 사용하고있는 다른 이상한 카메라에 대해 들었을 것입니다. 그러나 그들은 어떻게 일하고, 어떻게 세상을 볼 수 있으며, 우리와 정확히 무엇을 볼 수 있습니까? 주로 정부에서 일하거나 다음 규정을 구축하는 경우 도로에 올려 놓으려면 어떻게 작동하는지 이해하는 것이 필수적입니다. 또한 이러한 서비스의 고객으로서.
우리는 이전에 Tesla Autopilot이 어떻게 보이고 작동하는지에 대해 다루었지만 기존의 자율 주행 차량과 다릅니다. Tesla는 카메라를 사용하여 세계를 이해하는 반면 Waymo와 같은 대부분은 일반 카메라와 3D Lidar 센서를 사용합니다. 이 LIDAR 센서는 이해하기가 매우 간단합니다. 일반 카메라와 같은 이미지를 생성하지는 않지만 3D 포인트 구름. LIDAR 카메라는 물체 사이의 거리를 측정하여 물체에 투사하는 맥박 레이저의 이동 시간을 계산합니다.
그래도이 정보를 효율적으로 결합하고 차량이이를 이해하게 할 수있는 방법은 무엇입니까? 그리고 차량은 무엇을보고 있습니까? 어디에나 포인트? 도로에서 운전하기에 충분합니까? Waymo와 Google Research의 새로운 연구 논문으로 이것을 살펴볼 것입니다 ...
사진을 찍는 것이 충분한 기술적 인 능력이없는 것처럼, 우리는 이제 반대를하고 있습니다 : 그림에서 세상을 모델링합니다. 나는 이미지를 찍어 고품질 장면으로 바꿀 수있는 놀라운 AI 기반 모델을 다루었습니다. 2 차원 그림 세계에서 몇 가지 이미지를 찍어서 물체 나 사람이 현실 세계에서 어떻게 보이는지를 만들어내는 도전적인 과제.
몇 장의 사진을 찍고 제품에 삽입 할 사실적인 모델을 즉시 가져 가십시오. 얼마나 멋진가요?!
2020 년에 NERF라는 첫 번째 모델에서 결과가 크게 향상되었습니다. 그리고 이러한 개선은 결과의 품질에 관한 것이 아닙니다. Nvidia는 그것을 더 좋게 만들었습니다.
품질이 더 좋지 않더라도 품질이 비교 될뿐만 아니라 2 년 미만의 연구에서 1,000 배 이상 빠릅니다.
작년에 나는 OpenAI의 놀라운 모델 인 Dall · E를 공유했습니다. 이제 그의 형제 인 Dall · E 2의 시간입니다. 그리고 당신은 1 년 안에 진전을 믿지 않을 것입니다! Dall · E 2는 텍스트에서 사진 이미지를 생성하는 데 더 나을뿐만 아니라 결과는 해상도의 4 배입니다!
그것이 충분히 인상적이지 않은 것처럼, 최근 모델은 새로운 기술을 배웠습니다. 이미지가 inpainting.
dall · e는 텍스트 입력에서 이미지를 생성 할 수 있습니다.
Dall · e 2는 더 잘 할 수 있지만 거기서 멈추지는 않습니다. 또한 이미지를 편집하고 더 좋아 보이게 할 수 있습니다! 또는 백그라운드에서 플라밍고처럼 원하는 기능을 추가하십시오.
흥미로운 것 같나요? 비디오에서 자세한 내용을 배우거나 아래에서 자세히 알아보십시오!
Google Research 및 Tel-Aviv University 의이 새로운 모델은 믿어지지 않습니다. 당신은 그것을 무엇이든 할 수있는 매우 강력한 심해로 볼 수 있습니다.
사람의 100 장의 사진을 찍으면 원하는 현실적인 사진을 수정, 편집 또는 만들기 위해 페르소나를 인코딩했습니다.
당신이 나에게 물어 보면, 특히 결과를 볼 때 이것은 놀랍고 무섭습니다. 더 많은 결과를보고 모델이 어떻게 작동하는지 이해하려면 비디오를보고!
해당 분야의 전문가와의 인터뷰 형태로 AI 컨텐츠가 무엇인지 확인하십시오! 초대 된 AI 전문가와 저는 AI와 관련된 특정 주제, 하위 필드 및 역할을 다루어 수집하기 위해 열심히 일한 사람들의 지식을 가르치고 공유 할 것입니다.
우리는 모두 GPT-3에 대해 들었고 그 기능에 대한 분명한 아이디어를 가지고 있습니다. 당신은이 모델로 인해 엄격하게 태어난 일부 응용 프로그램을 가장 많이 보았습니다. 그 중 일부는이 모델에 대한 이전 비디오에서 다루었습니다. GPT-3은 OpenAI가 개발 한 모델로 유료 API를 통해 액세스 할 수 있지만 모델 자체에 액세스 할 수 없습니다.
GPT-3을 너무 강하게 만드는 것은 아키텍처와 크기입니다. 1,750 억 개의 매개 변수가 있습니다. 우리가 뇌에있는 뉴런의 양의 두 배! 이 거대한 네트워크는 인터넷 전체에서 우리가 텍스트를 작성하고 교환하고 이해하는 방법을 이해하기 위해 거의 교육을 받았습니다. 이번 주 메타는 지역 사회를 위해 큰 진전을 이루었습니다. 그들은 방금 강력한 모델을 출시했지만 더 이상 강력하고 완전히 열린 모델을 발표했습니다.
Blobgan은 이미지의 비현실적 조작을 허용하며 간단한 멍청이를 쉽게 제어 할 수 있습니다. 이 모든 작은 얼룩은 물체를 나타내며, 당신은 그것들을 주위로 움직이거나 더 크거나 작거나 제거 할 수 있으며, 이미지에서 나타내는 객체에 동일한 영향을 미칩니다. 이것은 너무 멋지다!
저자가 결과에서 공유했듯이, 블로브를 복제하여 새로운 이미지를 만들어서 두 명의 천장 선풍기가있는 방과 같은 데이터 세트에서 보이지 않는 이미지를 만들 수도 있습니다! 내가 틀렸다면 저를 바로 잡으십시오. 그러나 나는 그것이 처음이 아니라면, 이미지를 움직이는 블로브로 단순하게 만들고 훈련 데이터 세트에서 보이지 않는 편집을 허용하는 첫 번째 용지 중 하나라고 생각합니다.
그리고 당신은 실제로 우리 모두가 알고있는 일부 회사에 비해이 제품을 가지고 놀 수 있습니다! 그들은 코드를 공개적으로 공유했으며 즉시 시도 할 수있는 Colab 데모를 공유했습니다. 더 흥미로운 것은 Blobgan이 어떻게 작동하는지입니다. 비디오에서 자세히 알아보십시오!
DeepMind의 Gato는 방금 출판되었습니다! Atari 게임, 캡션 이미지, 사람들과 채팅, 실제 로봇 암 등을 제어 할 수있는 단일 변압기입니다! 실제로, 그것은 한 번 훈련을 받고 동일한 가중치를 사용하여 모든 작업을 달성합니다. 그리고 DeepMind에 따라 이것은 변압기 일뿐 만 아니라 에이전트이기도합니다. 변압기를 멀티 태스킹 강화 학습 에이전트의 진행 상황과 혼합 할 때 발생합니다.
Gato는 다중 모달 에이전트입니다. 즉, 이미지에 대한 캡션을 만들거나 챗봇으로 질문에 답할 수 있음을 의미합니다. GPT-3은 이미 그렇게 할 수 있다고 말할 수 있지만 Gato는 더 많은 일을 할 수 있습니다. 다중 유산은 Gato가 인간 수준에서 Atari 게임을 할 수 있거나 로봇 암을 제어하는 것과 같은 실제 작업을 수행 할 수 있다는 사실에서 비롯됩니다. 물체를 정확하게 움직입니다. 그것은 단어, 이미지, 심지어 물리학을 이해합니다 ...
Dall-E 2에 좋은 결과가 있다고 생각되면 Google Brain 의이 새로운 모델이 무엇을 할 수 있는지 기다릴 때까지 기다리십시오.
Dalle-e는 놀랍지 만 종종 현실주의가 부족하며 이것이 팀이 Imagen이라는이 새로운 모델로 공격 한 것입니다.
그들은 프로젝트 페이지에서 많은 결과와 벤치 마크를 공유하는데, 이들은 Dall-E 2와 이전 이미지 생성 접근법을 명확하게 수행하는 텍스트-이미지 모델을 비교하기 위해 소개했습니다. 비디오에서 더 많이 배우십시오 ...
Dalle Mini는 놀랍습니다. 그리고 당신은 그것을 사용할 수 있습니다!
지난 며칠 동안 트위터 피드에있는 사진과 같은 사진을 보았을 것입니다. 당신이 그들이 무엇인지 궁금해한다면, 그들은 Dall · e mini라는 AI에 의해 생성 된 이미지입니다. 본 적이 없다면 누락 되었으므로이 비디오를보아야합니다. 이것이 어떻게 가능한지 궁금해한다면, 당신은 완벽한 비디오를 사용하고 있으며 5 분 이내에 답을 알 것입니다.
Dalle Mini는 텍스트 입력에서 놀라운 이미지를 생성하는 무료 오픈 소스 AI입니다.
Meta AI의 최신 모델 인 "No Language Behin 단일 모델은 200 개 언어를 처리 할 수 있습니다. 얼마나 믿어지지 않습니까?
메타는 동일한 모델로 200 개의 다른 언어를 다루는 반면 영어로는 훌륭한 결과를 얻기가 어렵다는 것을 알게되었으며, Google조차도 투쟁하는 가장 복잡하고 덜 대표되는 언어 중 일부는 ...
진동 표면의 카메라와 레이저 빔을 사용하여 사운드를 재구성하여 음악 악기를 분리하고 특정 스피커에 집중하며 주변 소음을 제거하며 더 놀라운 응용 프로그램을 사용할 수 있습니다.
Make-a-Scene은 "다른 Dalle"이 아닙니다. 이 새로운 모델의 목표는 사용자가 Dalle과 마찬가지로 텍스트 프롬프트에 이어 임의의 이미지를 생성 할 수 있도록하는 것이 아니라 세대의 사용자 제어를 제한합니다.
대신, Meta는 창의적인 표현을 앞으로 나아 가서이 텍스트-이미지 트렌드를 이전 스케치-이미지 모델과 병합하여 "Make-A-Scene"으로 이어지고 텍스트와 스케치 조건 이미지 생성 사이의 환상적인 조화를 이끌어 냈습니다.
Banmo와 함께 사진에서 변형 가능한 3D 모델을 만듭니다!
Dalle, Imagen 또는 Midjourney와 같은 최근의 모든 강력한 이미지 모델은 무엇입니까? 높은 컴퓨팅 비용, 엄청난 교육 시간 및 공유 과대 광고 외에도 모두 동일한 메커니즘 인 확산에 기초합니다. 확산 모델은 최근 Dalle과의 텍스트-이미지를 포함한 대부분의 이미지 작업에 대해 최첨단 결과를 달성했지만 이미지 수입, 스타일 전송 또는 이미지 수퍼 레벨과 같은 다른 많은 이미지 생성 관련 작업도 수행했습니다.
? 내 작업을 지원하려면 이 저장소를 후원하거나 Patreon에서 저를 지원할 수 있습니다.
Panoptic 장면 그래프 생성 또는 PSG는 경계 상자보다는 Panoptic 세분화를 기반으로 이미지 또는 장면의보다 포괄적 인 그래프 표현을 생성하는 새로운 문제 작업입니다. 이미지를 이해하고 무슨 일이 일어나고 있는지 설명하는 문장을 생성하는 데 사용될 수 있습니다. 이것은 AI에게 가장 어려운 작업 일 수 있습니다! 아래에서 자세히 알아보십시오 ...
Dalle 또는 안정적인 확산과 같은 텍스트-이미지 모델은 정말 시원하며 간단한 텍스트 입력으로 환상적인 그림을 생성 할 수 있습니다. 그러나 그들에게 당신의 사진을주고 그것을 그림으로 바꾸라고 요청하는 것이 더 시원할까요? 물체, 사람 또는 고양이의 그림을 보내고 모델에 자신을 선호하는 예술적 스타일로 사이보그로 바꾸거나 새로운 장면에 추가하는 것과 같은 다른 스타일로 변환하도록 모델에 요청할 수 있다고 상상해보십시오.
기본적으로, 임의의 세대를 갖지 않고 사진을 포토샵하는 데 사용할 수있는 Dalle 버전을 갖는 것이 얼마나 멋진가요? 개인화 된 달레를 갖는 반면,“이미지는 천 단어의 가치가 있습니다”로 세대를 제어하는 것이 훨씬 간단합니다. Tiktok 알고리즘만큼 개인화되고 중독성이있는 Dalle 모델을 갖는 것과 같습니다.
글쎄, 이것은 텔 아비브 대학교와 Nvidia의 연구원들이 작업 한 것입니다. 그들은 지난 주에 다룬 안정적인 확산과 같은 텍스트-이미지 모델을 컨디셔닝하기위한 접근 방식을 개발했으며, 이미지를 따라 보낼 단어를 통해 객체 나 개념을 나타내는 몇 가지 이미지와 함께 몇 가지 이미지가 있습니다. 입력 이미지의 객체를 원하는대로 변환하십시오!
우리는 AI가 텍스트를 생성 한 다음 이미지를 생성하고 가장 최근에는 여전히 작업이 필요하더라도 짧은 비디오를 생성하는 것을 보았습니다. 결과는 실제로이 조각들의 창조 과정에 관여하지 않는다고 생각할 때 믿을 수 없으며 안정된 확산과 같은 수천 명의 사람들이 사용하기 위해 한 번만 훈련을 받아야합니다. 그럼에도 불구 하고이 모델들은 그들이하는 일을 정말로 이해합니까? 그들은 방금 제작 한 사진이나 비디오가 실제로 무엇을 나타내는 지 알고 있습니까? 그러한 그림이 그러한 그림을 볼 때 또는 더 복잡한 비디오를 볼 때 이러한 모델은 무엇을 이해합니까?
Meta AI의 새로운 모델 Make-A-Video가 나오고 단일 문장으로 텍스트에서 비디오를 생성합니다. 비디오를 생성 할 수있을뿐만 아니라 새로운 최첨단 방법이기도하여 그 어느 때보 다 높은 품질과 일관된 비디오를 생성합니다!
당신은 당신이 말하는 것을 정확하게 이해하고 그것을 적어 줄 좋은 전사 도구를 꿈꾸 었습니까? 자동 YouTube 번역 도구와는 다릅니다… 내 말은, 그들은 훌륭하지만 완벽하지 않습니다. 시도해보고 비디오의 기능을 켜면 내가 말하는 내용을 볼 수 있습니다.
운 좋게도 OpenAi는 방금 꽤 강력한 AI 모델을 출시하고 오픈 소스를 제공합니다. Whisper.
그것은 내가 이해할 수없는 것들을 이해하고, 영어 원어민이 아니라 (비디오에서 듣기) 언어 번역에도 효과적입니다!
우리는 모델이 문장을 취하고 이미지를 생성 할 수있는 것을 보았습니다. 그런 다음 객체 나 특정 스타일과 같은 특정 개념을 학습하여 생성 된 이미지를 조작하는 다른 접근법.
지난주 Meta는 내가 다루는 Make-A-Video 모델을 게시하여 텍스트 문장에서도 짧은 비디오를 생성 할 수 있습니다. 결과는 아직 완벽하지는 않지만 작년부터 우리가 현장에서했던 진전은 놀랍습니다.
이번 주에 우리는 또 다른 진전을 이룹니다.
다음은 3D 모델을 생성하기에 충분한 문장을 이해할 수있는 새로운 Google 연구 모델 인 DreamFusion입니다. 이것을 달레 또는 안정적인 확산으로 볼 수 있지만 3D로 볼 수 있습니다.
Dalle 또는 안정적인 확산과 같은 최근 이미지 생성 모델이 시원하다고 생각한다면, 이것이 얼마나 놀라운 지 믿지 않을 것입니다. "이 하나"는 imagic입니다. Imagic은 이러한 확산 기반 모델을 사용하여 텍스트를 가져 와서 이미지를 생성하고 이미지를 편집하도록 모델을 조정합니다. 이미지를 생성 한 다음 모델에 원하는 방식으로 편집하도록 가르 칠 수 있습니다.
Nvidia의 최신 모델 인 Ediffi는 Dalle 2 또는 안정적인 확산과 같은 모든 이전 접근법보다 더 잘 보이고 정확한 이미지를 생성합니다. Ediffi는 귀하가 보내는 텍스트를 더 잘 이해하고 더 사용자 정의 가능합니다. NVIDIA의 이전 논문에서 본 기능을 추가합니다.
? 내 작업을 지원하려면 이 저장소를 후원하거나 Patreon에서 저를 지원할 수 있습니다.
마치 이미지로 날아가는 것처럼 무한 새로운 프레임을 생성하십시오!
Galactica는 GPT-3과 비슷한 크기의 대형 언어 모델이지만 과학적 지식에 특화되어 있습니다. 이 모델은 백색대, 리뷰, 위키 백과 페이지 및 코드를 작성할 수 있습니다. 인용하는 방법과 방정식을 작성하는 방법을 알고 있습니다. AI와 과학에 큰 도움이됩니다.
단일 비디오에서, 그들은 더 나은 품질로 거의 모든 단어 나 문장에 대해 이야기하는 사람을 합성 할 수 있습니다. 실시간으로 모든 오디오 트랙을 따라 대화 헤드를 애니메이션 할 수 있습니다.
Chatgpt는 트위터와 전체 인터넷 전체를 인수했습니다. 우리는 밈을 생성 할 수있는 것이 인터넷을 정복하는 가장 좋은 방법이라는 것을 알고 있습니다.
수많은 사례를 보았 기 때문에 Chatgpt가 최근 OpenAi에 의해 대중에게 공개 된 AI라는 것을 이미 알고있을 것입니다. 챗봇이라고도합니다. 즉, 대화와 상호 작용하여 일대일 인간 토론을 모방 할 수 있습니다.
당신이 알지 못하는 것은 그것이 무엇인지, 그것이 어떻게 작동하는지 ... 비디오를 보거나 아래의 기사 나 블로그 게시물을 읽으려면 자세한 내용을 알아보십시오!
Snapchat 필터, 영화, 심지어 주름을 제거하기 위해 재미 있든 관계없이, 우리 모두는 사진에서 나이를 바꿀 수있는 유틸리티를 염두에두고 있습니다.
이것은 일반적으로 Photoshop 또는 유사한 도구를 사용하여 사진을 편집하는 숙련 된 아티스트가 수행합니다. 최악의 비디오에서 그들은 모든 프레임에 대해 이런 종류의 수동 편집을해야합니다! 그에 필요한 작업의 양을 상상해보십시오. 글쎄,이 상황에 대한 해결책과 새로운 문제가 있습니다 ...?
더 많은 논문을 읽고 더 넓은 견해를 갖고 싶다면 2021 : 2021 : 놀라운 AI 논문으로 가득 찬 1 년간의 훌륭한 리포지토리가 있습니다. -2022 년 AI의 새로운 간행물과 함께!
Twitter @whats_ai 또는 linkedin @louis (AI) bouchard에 저를 태그하십시오. 목록을 공유하면!
[1] Suvorov, R., Logacheva, E., Mashikhin, A., Remizova, A., Ashukha, A., Silvestrov, A., Kong, N., Goka, H., Park, K. 및 Lempitsky, V., 2022. 푸리에 컨볼 루션으로 인한 분해능 대형 마스크. 컴퓨터 비전 응용에 관한 IEEE/CVF 겨울 회의 절차 (pp. 2149–2159)., https://arxiv.org/pdf/2109.07161.pdf
[2] Tzaban, R., Mokady, R., Gal, R., Bermano, Ah and Cohen-Or, D., 2022. https://arxiv.org/abs/2201.08361
[3] Kuang, Z., Olszewski, K., Chai, M., Huang, Z., Achlioptas, P. 및 Tulyakov, S., 2022. Neroic : 온라인 이미지 수집에서 물체의 신경 렌더링. https://arxiv.org/pdf/2201.02533.pdf
[4] Borsos, Z., Sharifi, M. 및 Tagliasacchi, M., 2022. SpeechPainter : 텍스트 조건이있는 Speech Inpainting. https://arxiv.org/pdf/2202.07273.pdf
[5] Wang, X., Li, Y., Zhang, H. and Shan, Y., 2021. 이전의 얼굴을 가진 실제 얼굴 맹인 얼굴 복원. 컴퓨터 비전 및 패턴 인식에 관한 IEEE/CVF 컨퍼런스 (pp. 9168–9178), https://arxiv.org/pdf/2101.04061.pdf
[6] 학습 된 다중 모달 정렬에 대한 Piergiovanni, AJ, Casser, V., Ryoo, MS and Angelova, A., 4D-Net. 컴퓨터 비전에 관한 IEEE/CVF 국제 회의 (pp. 15435–15445), https://openaccess.thecvf.com/content/iccv2021/papers/piergiovanni_4d-net_for_multi-multi-multi-multi-modal_alignment_iccv_2021_2021_2021_2021_2021_2021_2021_2021.
[7] Thomas Muller, Alex Evans, Christoph Schied 및 Alexander Keller, 2022, "멀티 레스 솔루션 해시 인코딩을 가진 인스턴트 신경 그래픽 프리미티브", https://nvlabs.github.io/instant-ngp/assets/mueller202instant.pdf
[8] A. Ramesh et al., 2022, "클립 잠재심을 가진 계층 적 텍스트-공통 이미지 생성", https://cdn.openai.com/papers/dall-e-2.pdf
[9] Nitzan, Y., Aberman, K., He, Q., Liba, O., Yarom, M., Gandelsman, Y., Mosseri, I., Pritch, Y. and Cohen-Or, D., 2022. MyStyle: A Personalized Generative Prior. arXiv preprint arXiv:2203.17272.
[10] Zhang, Susan et al. “OPT: Open Pre-trained Transformer Language Models.” https://arxiv.org/abs/2205.01068
[11] Epstein, D., Park, T., Zhang, R., Shechtman, E. and Efros, AA, 2022. BlobGAN: Spatially Disentangled Scene Representations. arXiv preprint arXiv:2205.02837.
[12] Reed S. et al., 2022, Deemind: Gato - A generalist agent, https://storage.googleapis.com/deepmind-media/A%20Generalist%20Agent/Generalist%20Agent.pdf
[13] Saharia et al., 2022, Google Brain, Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding, https://gweb-research-imagen.appspot.com/paper.pdf
[14] Dayma, et al., 2021, DALL·E Mini, doi:10.5281/zenodo.5146400
[15] NLLB Team et al., 2022, No Language Left Behind: Scaling Human-Centered Machine Translation
[16] Sheinin, Mark and Chan, Dorian and O'Toole, Matthew and Narasimhan, Srinivasa G., 2022, Dual-Shutter Optical Vibration Sensing, Proc. IEEE CVPR.
[17] Gafni, O., Polyak, A., Ashual, O., Sheynin, S., Parikh, D. and Taigman, Y., 2022. Make-a-scene: Scene-based text-to-image generation with human priors. https://arxiv.org/pdf/2203.13131.pdf
[18] Yang, G., Vo, M., Neverova, N., Ramanan, D., Vedaldi, A. and Joo, H., 2022. Banmo: Building animatable 3d neural models from many casual videos. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 2863-2873).
[19] Rombach, R., Blattmann, A., Lorenz, D., Esser, P. and Ommer, B., 2022. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 10684–10695), https://arxiv.org/pdf/2112.10752.pdf
[20] Yang, J., Ang, YZ, Guo, Z., Zhou, K., Zhang, W. and Liu, Z., 2022. Panoptic Scene Graph Generation. arXiv preprint arXiv:2207.11247.
[21] Gal, R., Alaluf, Y., Atzmon, Y., Patashnik, O., Bermano, AH, Chechik, G. and Cohen-Or, D., 2022. An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion.
[22] Ni, B., Peng, H., Chen, M., Zhang, S., Meng, G., Fu, J., Xiang, S. and Ling, H., 2022. Expanding Language-Image Pretrained Models for General Video Recognition. arXiv preprint arXiv:2208.02816.
[23] Singer et al. (Meta AI), 2022, “MAKE-A-VIDEO: TEXT-TO-VIDEO GENERATION WITHOUT TEXT-VIDEO DATA”, https://makeavideo.studio/Make-A-Video.pdf
[24] Radford, A., Kim, JW, Xu, T., Brockman, G., McLeavey, C. and Sutskever, I., Robust Speech Recognition via Large-Scale Weak Supervision.
[25] Poole, B., Jain, A., Barron, JT and Mildenhall, B., 2022. DreamFusion: Text-to-3D using 2D Diffusion. arXiv preprint arXiv:2209.14988.
[26] Kawar, B., Zada, S., Lang, O., Tov, O., Chang, H., Dekel, T., Mosseri, I. and Irani, M., 2022. Imagic: Text-Based Real Image Editing with Diffusion Models. arXiv preprint arXiv:2210.09276.
[27] Balaji, Y. et al., 2022, eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers, https://arxiv.org/abs/2211.01324
[28] Li, Z., Wang, Q., Snavely, N. and Kanazawa, A., 2022. InfiniteNature-Zero: Learning Perpetual View Generation of Natural Scenes from Single Images. In European Conference on Computer Vision (pp. 515–534). Springer, Cham, https://arxiv.org/abs/2207.11148
[29] Taylor et al., 2022: Galactica: A Large Language Model for Science, https://galactica.org/
[30] Tang, J., Wang, K., Zhou, H., Chen, X., He, D., Hu, T., Liu, J., Zeng, G. and Wang, J., 2022. Real-time Neural Radiance Talking Portrait Synthesis via Audio-spatial Decomposition. arXiv preprint arXiv:2211.12368.
[31] OpenAI, 2022: ChatGPT: Optimizing Language Models for Dialogue, https://openai.com/blog/chatgpt/
[32] Loss et al., DisneyResearch, 2022: FRAN, https://studios.disneyresearch.com/2022/11/30/production-ready-face-re-aging-for-visual-effects/