A equipe do Hugging Face lançou dois modelos leves de IA: SMOLVLM-256M e SMOLVLM-500M, com parâmetros de 256 milhões e 500 milhões, respectivamente. Esses dois modelos são especialmente adequados para dispositivos com menos de 1 GB de memória, fornecendo aos desenvolvedores soluções de processamento de dados de baixo custo e alta eficiência. Seu desempenho eficiente supera muitos modelos de maior escala em vários parâmetros de referência, especialmente ao lidar com gráficos de ciências da escola primária, demonstrando seu enorme potencial em educação e pesquisa.
Recentemente, a equipe de Hugging Face, uma plataforma de desenvolvimento de inteligência artificial, lançou dois novos modelos de IA, SMOLVLM-256M e SMOLVLM-500M. Eles afirmam com confiança que os dois modelos são de longe os menores modelos de IA capazes de processar imagens, vídeos curtos e dados de texto simultaneamente, especialmente adequados para dispositivos com menos de 1 GB de memória, como laptops. Essa inovação permite que os desenvolvedores obtenham maior eficiência a um custo menor ao processar grandes quantidades de dados.
Os parâmetros desses dois modelos são de 256 milhões e 500 milhões, respectivamente, o que significa que sua capacidade de resolver problemas também melhorou de acordo. As tarefas que a série SMOLVLM pode executar incluem descrever imagens ou videoclipes e responder a perguntas sobre documentos em PDF e seu conteúdo, como digitalização de texto e gráficos. Isso os faz ter uma ampla gama de perspectivas de aplicação em muitos campos, como educação e pesquisa.

Durante o treinamento do modelo, a equipe de Face Hugging alavancou 50 conjuntos de dados de imagem e texto de alta qualidade chamados "The Caldron", além de varreduras de arquivos e conjuntos de dados detalhados de emparelhamento chamados docmatix. Ambos os conjuntos de dados foram desenvolvidos ao abraçar a equipe M4 do Face e focados no desenvolvimento da tecnologia multimodal de IA. Vale a pena notar que o SMOLVLM-256M e o SMOLVLM-500M superaram muitos modelos maiores em vários testes de referência, como o Idefics80b, e especialmente em testes de AI2D, eles têm um desempenho excepcional na capacidade de analisar gráficos científicos para os alunos da escola primária.
No entanto, embora os modelos pequenos acessíveis e versáteis possam não ter um desempenho tão bom quanto modelos grandes em tarefas de inferência complexas. Um estudo do Google DeepMind, Microsoft Research Institute e o Mila Institute em Quebec mostrou que muitos pequenos modelos tiveram um desempenho decepcionante nessas tarefas complexas. Os pesquisadores especulam que isso pode ser devido à tendência de pequenos modelos de identificar as características da superfície dos dados e parecem ser inescrupulosas ao aplicar esse conhecimento em novas situações.
Abraçar a família de modelos Smolvlm do rosto não são apenas pequenas ferramentas de IA, mas também demonstram recursos impressionantes ao lidar com várias tarefas. É sem dúvida uma boa opção para os desenvolvedores que desejam obter processamento de dados eficientes a baixo custo.
O surgimento da série de modelos SMOLVLM trouxe novas possibilidades para aplicativos leves de IA. Embora ainda exista espaço para melhorias em tarefas complexas, seu limiar baixo e alta eficiência tornam uma escolha que muitos desenvolvedores merecem atenção. No futuro, esperamos ver o aplicativo e a otimização adicional dos modelos da série SMOLVLM em mais campos.