홍콩대학교와 ByteDance는 대규모 언어 모델의 예측 패러다임을 이미지 생성 분야에 적용한 혁신적인 기술인 LlamaGen을 공동 출시하여 놀라운 성과를 거두었습니다. LlamaGen은 이미지 분할기를 재설계하고 모델을 대규모로 교육함으로써 시각적 신호 유도 편향 없이도 최고의 이미지 생성 성능을 달성하여 이미지 생성 분야에 새로운 혁신을 가져왔습니다. 이 기술은 ImageNet 벤치마크에서 좋은 성능을 발휘할 뿐만 아니라 이미지 품질 및 텍스트 정렬에서도 뛰어난 기능을 보여주며 vllm 서비스 프레임워크를 통해 상당한 가속화를 달성합니다. 그것이 제공하는 다양한 모델과 도구는 개발자와 연구원에게 귀중한 리소스를 제공합니다.

제품 입구: https://top.aibase.com/tool/llamagen
LlamaGen은 기존 이미지 생성 모델에 대한 파괴적인 혁신으로, 일반적인 자동 회귀 모델이 적절하게 크기가 조정되는 한 시각적 신호 유도 편향이 없더라도 최고의 이미지 생성 성능을 달성할 수 있음을 보여줍니다. LlamaGen 자동회귀는 Transformer의 출력이며 다음 토큰은 다음 토큰을 예측하기 위한 입력으로 사용됩니다. 이는 LLaMA 아키텍처를 사용하며 확산 모델을 사용하지 않습니다. 이번 발견은 영상생성 분야에 새로운 가능성과 영감을 가져다주며, 미래 영상생성 연구에 새로운 아이디어와 방향을 제시한다.
LlamaGen 기능은 다음과 같습니다.
이미지 토크나이저: 16배 다운샘플링 비율, 0.94 재구성 품질, 97% 코드북 활용도를 갖춘 이미지 토크나이저를 출시했으며 이는 ImageNet 벤치마크에서 좋은 성능을 보였습니다.

카테고리 조건부 이미지 생성 모델: 매개변수 범위가 111M부터 3.1B까지인 일련의 카테고리 조건부 이미지 생성 모델이 출시되어 ImageNet256×256 벤치마크에서 FID 2.18을 달성하여 인기 있는 확산 모델을 능가했습니다.


텍스트 조건부 이미지 생성 모델: 775M 매개변수를 갖춘 텍스트 조건부 이미지 생성 모델이 출시되었습니다. LAION-COCO의 2단계 학습을 거쳐 고품질의 미적 이미지를 생성할 수 있으며 뛰어난 시각적 품질과 텍스트 정렬 성능을 보여줍니다.

서비스 프레임워크 vllm: 이미지 생성 모델의 추론 속도를 최적화하여 326%~414%의 가속을 달성하는 데 있어 LLM 서비스 프레임워크의 효율성을 확인했습니다.

이번 프로젝트에서 연구팀은 2개의 이미지 분할기, 7개 범주 조건부 생성 모델, 2개의 텍스트 조건부 생성 모델을 출시하는 동시에 온라인 시연 및 고처리량 서비스 프레임워크를 제공했습니다. 이러한 모델과 도구의 출시는 개발자와 연구원에게 풍부한 리소스와 도구를 제공하여 LlamaGen 기술을 더 잘 이해하고 적용할 수 있게 해줍니다.
LlamaGen의 등장은 영상 생성 기술의 발전을 촉진할 뿐만 아니라, 인공지능 분야의 향후 연구에 새로운 방향과 아이디어를 제시하는 만큼 더 많은 분야에서의 활용과 발전을 기대해 볼 만하다.