Hugging Face는 크기가 작고 휴대 전화와 같은 작은 장치에서 실행될 수있는 멋진 가벼운 시각적 언어 모델 Smolvlm을 출시했지만 성능은 300 배 더 큰 IDEFICS80B 모델을 초과합니다. 이러한 획기적인 진행 상황은 더 넓고 저렴한 배포 시대에 대한 AI 응용 프로그램의 발전을 나타내며, 기업은 많은 컴퓨팅 비용을 절약하고 처리 효율성을 향상시킵니다. Smolvlm의 출현은 소기업과 신생 기업이 저렴한 비용으로 복잡한 컴퓨터 비전 응용 프로그램을 신속하게 개발할 수있는 전례없는 기회를 제공합니다.
Hugging Face는 놀라운 AI 모델 인 Smolvlm을 출시했습니다. 이 시각적 언어 모델은 휴대 전화와 같은 소규모 장치에서 실행할 수있을 정도로 작으며 대형 데이터 센터의 지원이 필요한 전임자를 능가합니다.

Smolvlm-256M 모델의 GPU 메모리 요구 사항은 1GB 미만이지만 성능은 이전의 IDEFICS80B 모델을 초과하여 크기보다 300 배 더 큰 실용 AI 배포의 상당한 발전을 표시합니다.
Hugging Face의 기계 학습 연구 엔지니어 인 Andres Malafiotti에 따르면 Smolvlm 모델은 시장에 도입되는 동안 기업에 상당한 컴퓨팅 비용 감소를 가져오고 있습니다. "이전에 발표 한 IDEFICS80B는 2023 년 8 월에 첫 번째 오픈 소스 비디오 언어 모델이었으며 Smolvlm의 출시는 300 배의 크기 감소를 달성하면서 성능을 향상 시켰습니다."
Smolvlm 모델의 출시는 Enterprises가 AI 시스템 구현에서 높은 컴퓨팅 비용에 직면하는 중요한 순간과 일치합니다. 새로운 모델에는 256m 및 500m의 두 매개 변수 스케일이 포함되어있어 이미지와 시각적 컨텐츠를 이전에 생각할 수없는 속도로 처리 할 수 있습니다. 최소 버전은 초당 최대 16 개의 인스턴스를 처리 할 수 있으며 15GB의 메모리 만 필요하므로 많은 양의 시각적 데이터를 처리 해야하는 비즈니스에 특히 적합합니다. 한 달에 백만 장의 사진을 처리하는 중형 회사의 경우 이는 상당한 연간 계산 비용 절감을 의미합니다.
또한 IBM은 256m 모델을 문서 프로세싱 소프트웨어 DOCLING에 통합하기 위해 Hugging Face와 파트너십을 맺었습니다. IBM은 컴퓨팅 리소스가 풍부하지만 소규모 모델을 사용하면 저렴한 비용으로 수백만 파일을 처리하는 데 효율적입니다.
Hugging Face 팀은 시각적 처리 및 언어 구성 요소의 기술 혁신을 통해 성능을 잃지 않고 모델 크기를 성공적으로 줄였습니다. 원래 400m 매개 변수 Visual Encoder를 93m 매개 변수 버전으로 대체하고보다 공격적인 토큰 압축 기술을 구현했습니다. 이러한 혁신을 통해 소기업과 신생 기업은 단기간에 복잡한 컴퓨터 비전 제품을 출시 할 수 있으며 인프라 비용이 크게 줄어 듭니다.
Smolvlm의 교육 데이터 세트에는 1 억 7 천만 개의 교육 예제가 포함되어 있으며 그 중 절반은 문서 처리 및 이미지 주석에 사용됩니다. 이러한 발전은 비용을 줄일뿐만 아니라 기업에 새로운 응용 프로그램 가능성을 가져 오면 시각적 검색 능력을 전례없는 수준으로 향상시킵니다.
포옹함으로써 이러한 발전은 모델 크기와 기능 사이의 관계에 대한 전통적인 인식에 도전합니다. Smolvlm은 작고 효율적인 아키텍처가 향후 탁월한 성능을 달성 할 수 있음을 증명합니다.
모델 : https://huggingface.co/blog/smolervlm
전철기:
Hugging Face로 시작된 Smolvlm 모델은 휴대 전화에서 실행될 수 있으며 IDEFICS80B 모델보다 300 배 이상 큰 성능을 보입니다.
Smolvlm 모델은 기업이 초당 16 개의 인스턴스의 처리 속도로 컴퓨팅 비용을 크게 줄이는 데 도움이됩니다.
이 모델의 기술 혁신을 통해 소기업과 신생 기업은 단기간에 복잡한 컴퓨터 비전 제품을 출시 할 수 있습니다.
Smolvlm의 출현은 AI 응용 프로그램이 더 인기가 될 것이며 소규모 비즈니스와 개별 개발자는 강력한 AI 기술을 쉽게 활용하여 더 많은 분야에서 인공 지능의 혁신과 개발을 촉진 할 수 있습니다. 가볍고 고성능 특성은 의심 할 여지없이 인공 지능 모델에 대한 이해를 바꾸고 AI 기술의 미래 개발 방향을위한 새로운 경로를 지적 할 것입니다.