A startup de Seattle Moondream lançou o modelo de linguagem visual compacta Moondream2, que possui apenas 1,6 bilhão de parâmetros, mas teve um bom desempenho em vários testes de referência, ainda melhor do que alguns modelos com parâmetros maiores. Como modelo de código aberto, o Moondream2 pode ser executado localmente em dispositivos de baixo desempenho, como smartphones, e possui poderosos recursos de processamento de imagem e texto, incluindo perguntas e respostas, OCR, contagem de objetos e classificação. Suas pontuações acima de 60% no DOCVQA, TextVQA e GQA, demonstrando sua capacidade poderosa quando executadas localmente. A Moondream recebeu US $ 4,5 milhões em rodadas de sementes e continua atualizando o modelo para melhorar seu desempenho.
Recentemente, a Moondream, uma startup de Seattle, lançou um modelo de linguagem visual compacta chamada Moondream2. Apesar de seu tamanho pequeno, o modelo teve um bom desempenho em vários benchmarks e atraiu muita atenção. Como modelo de código aberto, o Moondream2 deverá implementar o reconhecimento de imagem local em smartphones.

O Moondream2 foi lançado oficialmente em março. Desde o seu lançamento, a equipe Moondream atualizou continuamente o modelo para melhorar continuamente seu desempenho de referência. A edição de julho mostrou melhorias significativas no OCR e no entendimento da documentação, especialmente na análise de dados econômicos históricos. O modelo obteve mais de 60% no DOCVQA, TextVQA e GQA, mostrando sua habilidade poderosa quando executada localmente.
Um recurso distinto do Moondream2 é o seu tamanho compacto: apenas 1,6 bilhão de parâmetros, o que faz com que seja executado não apenas em servidores em nuvem, mas também em computadores locais e até alguns dispositivos de baixo desempenho, como smartphones ou computadores de placa única.
Apesar de seu tamanho pequeno, seu desempenho é comparável a alguns modelos competitivos com bilhões de parâmetros e até supera esses modelos maiores em alguns benchmarks.
Em comparação dos modelos de linguagem visual de dispositivos móveis, os pesquisadores apontaram que, embora o Moondream2 tenha apenas 170 milhões de parâmetros, seu desempenho é comparável ao do modelo de 700 milhões de parâmetros e tem um desempenho ligeiramente inferior ao conjunto de dados do SQA. Isso mostra que, apesar do excelente desempenho do modelo pequeno, há desafios para entender um contexto específico.

Vikhyat Korrapati, o desenvolvedor do modelo, disse que o Moondream2 foi construído em outros modelos como o SIGLIP, os conjuntos de dados de treinamento PHI-1.5 da Microsoft e LLAVA. O modelo de código aberto já está disponível gratuitamente no Github e tem uma versão demo em abraçar o rosto. Na plataforma de codificação, o Moondream2 também atraiu atenção generalizada da comunidade de desenvolvedores e recebeu mais de 5.000 estrelas.
O sucesso atraiu a atenção dos investidores: Moondream levantou com sucesso US $ 4,5 milhões em uma rodada de sementes liderada por Felicis Ventures, Fund e Ascend da Microsoft M12Github. O CEO da empresa, Jay Allen, trabalhou para a Amazon Web Services (AWS) há muitos anos e lidera a crescente startup.
O lançamento do Moondream2 marca o nascimento de uma variedade de modelos de código aberto otimizado profissionalmente que exigem menos recursos ao fornecer desempenho semelhante aos modelos maiores e mais antigos. Embora existam alguns pequenos modelos locais no mercado, como o Smart Assistant da Apple e o Gemini Nano do Google, esses dois fabricantes ainda estão terceirizando tarefas mais complexas na nuvem para resolver.
Huggingface: https: //huggingface.co/vikhyatk/moondream2
Github: https: //github.com/vikhyat/moondream
Pontos -chave:
A Moondream lançou o Moondream2, um modelo de linguagem visual com apenas 160 milhões de parâmetros, que podem ser executados em pequenos dispositivos como smartphones.
O modelo possui fortes recursos de processamento de texto e imagem, pode responder a perguntas, executar OCR, contar objetos e classificar os benchmarks e executar excelente benchmarking.
A Moondream levantou com sucesso US $ 4,5 milhões em financiamento, e o CEO trabalhou na Amazon, e a equipe continuou a atualizar e melhorar o desempenho do modelo.
O surgimento do Moondream2 trouxe novas possibilidades aos aplicativos móveis de IA, e seus recursos de código aberto também promoveram a participação ativa e a inovação da comunidade de desenvolvedores. No futuro, com o desenvolvimento contínuo da tecnologia, modelos pequenos e eficientes de IA como o Moondream2 desempenharão um papel importante em mais campos.