2 차원 사진으로 아름다운 장면을 갈망하고 매력적인 사진을 직접 경험하기를 갈망 한 적이 있습니까? 이제이 꿈은 현실이 될 것으로 예상됩니다! CVPR2025에서 MIDI (단일 이미지에 대한 다중 인스턴스 확산, 3D 장면 생성에 대한 다중 인스턴스 확산 단일 이미지)라는 주요 연구가 등장했습니다. 이 기술은 숙련 된 마술사와 같습니다. 일반 2D 사진만으로 생명력있는 360도 3D 장면을 만들 수 있습니다.
햇빛이 빛나고 절묘한 테이블과 의자, 향기로운 커피 컵, 창문 밖에서 흔들리는 나무가있는 카페 구석을 가져 갔다고 상상해보십시오. 과거에는 이것은 정적 평평한 이미지 일뿐입니다. 그러나 MIDI를 사용하면이 사진을 "먹이"해야하며 다음에 발생하는 일은 "돌을 금으로 돌리기"라고 할 수 있습니다.
미디는 상당히 영리하게 작동합니다. 첫째, 경험이 풍부한 아티스트처럼 입력 단일 이미지를 지능적으로 세그먼트합니다. 테이블, 의자, 커피 컵 등과 같은 장면에서 다양한 독립적 인 요소를 정확하게 식별 할 수 있습니다. 이러한 "분해 된"이미지 부품은 전체 장면 환경 정보와 함께 MIDI가 3D 장면을 구성하는 데 중요한 기초가됩니다.
MIDI는 3D 객체를 하나씩 생성 한 다음 결합하는 다른 방법과 달리, 다중 인스턴스 동기 확산의보다 효율적이고 지능적인 방법을 채택합니다. 이것은 장면에서 여러 객체를 동시에 3D 모델 할 수 있음을 의미합니다. 이것은 동시에 다른 악기를 연주하는 오케스트라와 같은 조화로운 움직임으로 수렴합니다.
더 놀라운 것은 미디가 새로운 다중 인스턴스주의 메커니즘을 소개한다는 것입니다. 이 메커니즘은 장면의 다른 물체들 사이의 "대화"와 같습니다. 객체 간의 상호 작용과 공간 관계를 효과적으로 포착하여 생성 된 3D 장면에는 독립적 인 객체뿐만 아니라 더 중요한 것은 이들 사이의 배치와 상호 영향이 논리적이고 통합 된 것입니다. 생성 과정에서 물체 간의 관계를 직접 고려하는이 능력은 전통적인 방법에서 복잡한 사후 처리 단계를 피하고 효율성과 현실 감각을 크게 향상시킵니다.
MIDI는 복잡한 다단계 처리없이 단일 이미지에서 구성된 3D 인스턴스를 직접 생성 할 수 있습니다. 전체 처리 프로세스는 가장 빠른 40 초 밖에 걸리지 않으며, 이는 효율성을 추구하는 사용자에게는 확실히 축복입니다. MIDI는 다중 인스턴스주의 레이어와 교차 분류 계층을 도입함으로써 글로벌 장면의 컨텍스트 정보를 완전히 이해하고이를 각 독립적 인 3D 객체의 생성 프로세스에 통합하여 장면의 전반적인 조정과 세부 사항의 풍부함을 보장 할 수 있습니다.
교육 과정에서 MIDI는 제한된 장면 레벨 데이터를 영리하게 사용하여 3D 인스턴스 간의 상호 작용을 감독하고 정규화를 위해 많은 양의 단일 객체 데이터를 통합하여 장면 논리를 준수하는 3D 모델을 정확하게 생성하면서 우수한 일반화 기능을 유지할 수 있습니다. MV-Adapter와 같은 기술의 적용 덕분에 MIDI에서 생성 된 3D 장면의 텍스처 세부 사항은 열등하지 않다는 점을 언급 할 가치가 있습니다.
MIDI 기술의 출현은 많은 분야에서 새로운 물결을 일으킬 것이라고 예견 할 수 있습니다. 게임 개발, 가상 현실, 인테리어 디자인 또는 문화 유물의 디지털 보호이든 MIDI는 새롭고 효율적이며 편리한 3D 컨텐츠 제작 방법을 제공 할 것입니다. 미래에 우리는 진정한 "한 번의 클릭 시간 여행"을 달성하기 위해 대화식 3D 환경을 신속하게 구축하기 위해 사진을 찍어야한다고 상상해보십시오.
프로젝트 입구 : https://huangzh.github.io/midi-page/