Стартап искусственного интеллекта Luma недавно выпустил технологию предварительной тренировки с открытым исходным кодом, называемую индуктивным моментом (IMM) на платформе X. Эта технология привлекло широкое внимание в области генеративного ИИ для его эффективности и стабильности и считается основным прорывом в этой области.
По словам пользователя X Linqi_zhou, IMM - это совершенно новое поколение парадигма, которая может достичь стабильной тренировки с нуля с помощью отдельных моделей и одиночных целей. По сравнению с традиционными методами, IMM работает лучше в эффективности отбора проб и качества выборки. Он упомянул в посте: «Имп достиг 1,99 FID всего за 8 шагов на наборе данных ImageNet256 × 256 и 1,98 FID всего за 2 шага на CIFAR-10». Это достижение не только обновило отраслевой стандарт, но и продемонстрировал огромный потенциал IMM в области генерации изображений.
По сравнению с текущей основной диффузионной моделью IMM повысила эффективность отбора проб более чем в 10 раз, сохраняя при этом более высокое качество выборки. X Пользователь OP7418 Далее объясняет технические принципы IMM: традиционные диффузионные модели менее эффективны из-за ограничений линейной интерполяции и многоэтапной конвергенции, в то время как IMM значительно повышает гибкость за счет одновременной обработки текущего шага времени и целевого шага времени во время процесса вывода. Эта конструкция «Перво» рассуждения позволяет модели генерировать высококачественные изображения в меньшем количестве шагов, прорывая алгоритмическое узкое место диффузионной модели.
Кроме того, IMM также лучше, чем модели согласованности с точки зрения стабильности обучения. OP7418 указывает, что модели согласованности склонны к нестабильной динамике во время тренировок, в то время как IMM демонстрирует более сильную надежность и может адаптироваться к различным гиперпараметрам и модельным архитектурам. Эта функция делает IMM более надежным в практических приложениях.
Инициатива Luma по IMM с открытым исходным кодом получила высокую оценку от сообщества. X User FinanceyF5 прокомментировал: «IMM LaMa Labs технологии IMM повысили эффективность генерации изображений в 10 раз по сравнению с существующими методами, успешно пробивая алгоритм узкий уровень диффузионной модели!» Он также приложил ссылку на введение соответствующей технологии, которая вызвала больше дискуссий среди пользователей. Код и контрольные точки IMM были опубликованы через GitHub, а технические детали также были разработаны в связанных статьях, полностью отражая определение Luma для продвижения открытости исследований ИИ.
Данные о производительности IMM дополнительно доказывают свою главную позицию. В наборе данных ImageNet256 × 256 IMM превзошел диффузионную модель (2,27FID) и сопоставление потока (2,15FID) с 1,99FID, а этап отбора проб был уменьшен в 30 раз. В наборе данных CIFAR-10 IMM IMM достиг 1,98 FID всего за 2 этапа выборки, установив лучшую запись для этого набора данных. OP7418 также упомянул, что IMM обладает превосходной масштабируемостью вычислительных средств. С увеличением учебных и выводов вывода, производительность продолжает улучшаться, закладывая основу для более масштабных приложений в будущем.
В отрасли широко распространено мнение, что открытый источник IMMS может вызвать сдвиг парадигмы в технологии генерации изображений. Благодаря его эффективным, высоким качественным и стабильным свойствам IMM не только подходит для генерации изображений, но и возможно распространяться на видео и мультимодальные поля. Команда Лумы сказала, что IMM - это лишь первый шаг к мультимодальной базовой модели, и они надеются разблокировать более творческие возможности интеллекта с помощью этой технологии.
С выпуском IMM позиция Luma в глобальной конкурсе искусственного интеллекта становится все более заметной. Ожидается, что широко распространенные перспективы применения этой технологии и ее разрушительное воздействие на существующие модели будут продолжать вызывать горячие дискуссии в ближайшие месяцы.