В области компьютерного зрения многопроверка 3D-реконструкция всегда была сложной задачей, особенно в сценариях, где требуется высокая точность и масштабируемость. Традиционные методы, такие как Dust3r, принимают парную обработку. Хотя реконструкция может быть достигнута в определенной степени, ее сложная глобальная программа выравнивания не только требует много времени, но и увеличивает вычислительное бремя. Чтобы решить эту проблему, исследовательская группа предложила FAST3R, инновационную технологию многоперспективной реконструкции, которая может обрабатывать до 1500 изображений в одном предсмертном распространении, что значительно повышая эффективность реконструкции.

Ядро Fast3R лежит в ее архитектуре на основе трансформаторов, которая может обрабатывать многочисленную информацию об просмотре параллельно, что избегает утомительного итерационного процесса выравнивания в традиционных методах. Благодаря обширной экспериментальной проверке, FAST3R хорошо выполнял оценку камеры и задачи 3D реконструкции, что не только значительно улучшило скорость вывода, но и сокращение накопления ошибок, что делает его эффективной альтернативой в приложениях с несколькими просмотрами.

Во время внедрения FAST3R исследовательская группа приняла ряд передовых крупномасштабных методов обучения и вывода для обеспечения эффективных и масштабируемых возможностей обработки. Эти технологии включают Flashattention2.0 для расчетов внимания, достигающих памяти; Deepspeed Zero-2 для оптимизированного распределенного обучения; Объединенная положением интерполяция для легкого краткосрочного обучения и долгосрочного тестирования; и тензор параллелизм для ускорения вывода с несколькими GPU.
С точки зрения эффективности вычислений, FAST3R особенно хорошо работает на одном графическом процессоре A100, со значительным преимуществом по сравнению с Dust3R. Например, при обработке 32 изображений с разрешением 512 × 384 Fast3R занимает только 0,509 секунды, в то время как Dust3R занимает 129 секунд, а при обработке 48 изображений он сталкивается с переполнением памяти. FAST3R не только отлично выполняется во времени и потреблении памяти, но и показывает хорошую масштабируемость в модели и масштабе данных, что указывает на его широкие перспективы применения в крупномасштабной 3D-реконструкции.
Вход в проект: https://fast3r-3d.github.io/
Ключевые моменты:
Технология FAST3R может обрабатывать до 1500 изображений в прямом распространении, значительно улучшив скорость 3D реконструкции.
Архитектура трансформатора Fast3R поддерживает параллельную обработку, устраняя сложный процесс выравнивания традиционных методов.
По сравнению с Dust3R FAST3R показывает значительные преимущества во времени и использовании памяти и подходит для крупномасштабных приложений 3D реконструкции.