Модели генерации изображений добились значительного прогресса в области ИИ в последние годы, но скорость, с которой высококачественные изображения были сложной проблемой. Последняя технология индуктивного момента с открытым исходным кодом (IMM) от Luma AI обеспечивает прорывное решение этой проблемы. Оптимизируя эффективность стадии вывода, IMM значительно улучшил скорость генерации изображений, которую можно назвать «турбонаддувом» в области ИИ.
В настоящее время сообщество ИИ, как правило, сталкивается с проблемой узкого места генеративного предварительного обучения. Хотя объем данных продолжает расти, инновации алгоритма относительно отстают. Luma AI отметил, что ядро проблемы - это не отсутствие данных, а неспособность существующих алгоритмов полностью использовать потенциал данных. Это похоже на владение золотыми шахтами, но только использование оригинальных инструментов для их добычи, что неэффективно. Чтобы сломать этот «потолок алгоритма», Luma AI обратила свое внимание на расширение вычислений на время вывода и предложенную технологию IMM.
Что уникально в IMM, так это то, что он перепроектирует алгоритм предварительного обучения с точки зрения эффективности вывода. Традиционная диффузионная модель должна быть постепенно скорректирована, а процесс генерации изображений похож на изучение в лабиринте. С другой стороны, IMM представил концепцию «целевого шага времени», позволяя модели «прыгать» более гибко в процессе вывода, значительно уменьшив шаги, необходимые для генерации. Этот дизайн не только улучшает скорость, но и повышает выразительную способность каждой итерации.
Кроме того, IMM также принимает максимальную среднюю технологию расхождений, обеспечивая точную навигацию для процесса вывода и обеспечивая, чтобы модель может эффективно генерировать высококачественные изображения. Это инновация позволила IMMS превзойти традиционные методы как в скорости, так и в качестве.
Результаты эксперимента показывают, что IMM достиг оценки FID в 1,99, и только в 30 раз меньше этапов отбора проб на наборе данных ImageNet256x256, превзойдя диффузионную модель и сопоставление потока. В наборе данных CIFAR-10 IMM получил оценку FID 1,98 всего за 2 шага, установив лучший уровень для этого набора данных. Эта скорость «молнии» выделяет IMM в области генерации изображений.
В дополнение к преимуществу Speed IMM также хорошо выполнял стабильность тренировок. По сравнению с моделями согласованности и другими моделями, которые требуют специальной конструкции гиперпараметра, IMM может быть стабильно обучен при различных гиперпараметрах и модельных архитектурах, что еще больше снижает порог для использования.
Luma AI подчеркивает, что успех IMM зависит не только от применения технологии соответствия момента, но и от его дизайнерской идеи, которая ставит рассуждения на первое место. Эта инновационная перспектива позволяет им преодолеть ограничения существующей парадигмы перед тренировкой и открывать новые направления для разработки мультимодальных базовых моделей. Luma AI считает, что IMM - это только начало, и в будущем будет раскрывать более творческий интеллектуальный потенциал.
Репозиторий GitHub: https://github.com/lumalabs/imm