이미지 생성 모델은 최근 몇 년 동안 AI 분야에서 상당한 진전을 보였지만 고품질 이미지의 속도는 문제가되었습니다. Luma AI의 최신 오픈 소스 유도 모멘트 매칭 (IMM) 기술은이 문제에 대한 획기적인 솔루션을 제공합니다. 추론 단계의 효율을 최적화함으로써 IMM은 이미지 생성 속도를 크게 향상 시켰으며, 이는 AI 필드에서 "터보 차지"라고 할 수 있습니다.
현재 AI 커뮤니티는 일반적으로 생성 사전 훈련의 병목 현상 문제에 직면 해 있습니다. 데이터의 양은 계속 증가하지만 알고리즘 혁신은 비교적 뒤쳐져 있습니다. Luma AI는 문제의 핵심이 데이터가 충분하지 않지만 기존 알고리즘이 데이터의 잠재력을 완전히 활용하지 못한다고 지적했습니다. 금광을 소유하는 것과 같지만 원래 도구 만 사용하여 광산을 사용하여 비효율적입니다. 이 "알고리즘 천장"을 깨뜨리기 위해 Luma AI는 추론 시간 컴퓨팅 확장 및 제안 된 IMM 기술에 관심을 돌 렸습니다.
IMM의 독특한 점은 추론 효율의 관점에서 사전 훈련 알고리즘을 재 설계한다는 것입니다. 전통적인 확산 모델은 점차적으로 조정되어야하며 이미지를 생성하는 과정은 미로에서 탐색하는 것과 같습니다. 반면에 Imm은 "목표 시간 단계"라는 개념을 도입하여 추론 프로세스에서 모델이 "점프"할 수있게하여 생성에 필요한 단계를 크게 줄였습니다. 이 설계는 속도를 향상시킬뿐만 아니라 각 반복의 표현 능력을 향상시킵니다.
또한 IMM은 최대 평균 불일치 기술을 채택하여 추론 프로세스에 정확한 탐색을 제공하고 모델이 고품질 이미지를 효율적으로 생성 할 수 있도록합니다. 이 혁신으로 인해 IMM은 속도와 품질 모두에서 전통적인 방법을 능가 할 수있었습니다.
실험 결과에 따르면 IMM이 ImageNet256x256 데이터 세트에서 30 배 적은 샘플링 단계로 FID 점수 1.99를 달성하여 확산 모델과 흐름 일치를 능가하는 것으로 나타났습니다. CIFAR-10 데이터 세트에서 IMM은 단 2 단계로 1.98의 FID 점수를 얻었 으며이 데이터 세트에 가장 적합한 레벨을 설정했습니다. 이 "번개"속도는 이미지 생성 분야에서 Imm을 눈에 띄게 만듭니다.
속도 이점 외에도 IMM은 훈련 안정성에서도 잘 수행되었습니다. 일관성 모델 및 특수 하이퍼 파라미터 설계가 필요한 기타 모델과 비교하여, IMM은 다양한 하이퍼 파라미터 및 모델 아키텍처에서 안정적으로 훈련 될 수 있으며, 사용의 임계 값을 더욱 줄일 수 있습니다.
Luma AI는 IMM의 성공이 모멘트 일치 기술의 적용에 의존 할뿐만 아니라 추론을 최우선으로하는 설계 아이디어에도 의존한다고 강조합니다. 이 혁신적인 관점을 통해 기존 사전 훈련 패러다임의 한계를 해결하고 멀티 모달 기본 모델 개발을위한 새로운 방향을 열 수 있습니다. Luma Ai는 Imm이 시작에 불과하며 미래에 더 창의적인 지능 잠재력을 발휘할 것이라고 믿습니다.
github 저장소 : https://github.com/lumalabs/imm