Вы когда-нибудь жаждали прекрасных сцен на двумерных фотографиях и жаждали испытать эти очаровательные фотографии из первых рук? Теперь эта мечта станет реальностью! На CVPR2025 основное исследование под названием MIDI (диффузия с несколькими инстанциями для отдельного изображения до генерации 3D-сцены появилось, появилось диффузионное изображение с несколькими инстанциями). Эта технология похожа на опытного мага. С помощью обычной 2D-картинки вы можете создать для вас 3D-сцену на 360 градусов.
Представьте, что вы взяли угол кафе с солнечным светом, с изысканными столами и стульями, ароматными кофейными чашками и качающимися деревьями за окном. В прошлом это было просто статическое плоское изображение. Но с MIDI вам просто нужно «кормить» эту фотографию, и то, что происходит дальше, можно назвать «превращение камней в золото».
Миди работает довольно умно. Во -первых, он разумно разделил входное отдельное изображение, точно так же, как опытный художник, способный точно идентифицировать различные независимые элементы на сцене, такие как столы, стулья, кофейные чашки и т. Д. Эти «разобранные» детали изображения вместе с общей информацией об окружающей среде сцены станут важной основой для MIDI для строительства 3D -сцен.
В отличие от некоторых других методов генерации трехмерных объектов один за другим, а затем их объединение, MIDI принимает более эффективный и интеллектуальный способ синхронной диффузии с несколькими инстанциями. Это означает, что он способен одновременно 3D -модели в сцене одновременно, что похоже на оркестр, играющий разные инструменты одновременно, в конечном итоге сходятся в гармоничное движение.
Что еще более удивительно, так это то, что MIDI также представляет новый механизм внимания с несколькими экземплярами. Этот механизм похож на «диалог» между разными объектами в сцене. Он может эффективно захватить взаимодействие и пространственную связь между объектами, гарантируя, что генерируемая трехмерная сцена не только содержит независимые объекты, но, что более важно, размещение и взаимное влияние между ними логичны и интегрированы. Эта способность напрямую учитывать взаимосвязь между объектами в процессе генерации позволяет избежать сложных этапов постобработки в традиционных методах и значительно повышает эффективность и чувство реальности.
MIDI может напрямую генерировать составленные 3D-экземпляры из одного изображения без сложной многоэтапной обработки. Говорят, что весь процесс обработки занимает всего 40 секунд в самых быстрых, что, безусловно, является благословением для пользователей, которые стремятся к эффективности. Внедряя слой внимания с несколькими инстанциями и слой поперечного атянутого атмосфера, MIDI может полностью понять контекстную информацию о глобальной сцене и интегрировать его в процесс генерации каждого независимого 3D-объекта, обеспечивая тем самым общую координацию сцены и богатство деталей.
Во время учебного процесса MIDI умно использует данные об ограниченном уровне сцены для контроля взаимодействия между 3D-экземплярами, и интегрирует большой объем данных отдельных объектов для регуляризации, что позволяет точно генерировать 3D-модели, которые соответствуют логике сцены при сохранении хороших возможностей обобщения. Стоит отметить, что детали текстуры 3D-сцены, сгенерированной MIDI, не являются ущербами благодаря применению таких технологий, как MV-адаптер, что делает последнюю 3D-сцену более реалистичной и заслуживающей доверия.
Можно предположить, что появление технологии MIDI будет создавать новую волну во многих областях. Будь то разработка игр, виртуальная реальность, дизайн интерьера или цифровая защита культурных реликвий, MIDI предоставит новый, эффективный и удобный метод производства 3D -контента. Представьте, что в будущем нам, возможно, потребуется сфотографироваться, чтобы быстро построить интерактивную 3D-среду для достижения истинного «путешествия во времени в один клик».
Вход в проект: https://huangzh.github.io/midi-page/