O mais recente modelo visual básico da Microsoft, Florence-2, alcançou um grande avanço. Ele pode ser executado totalmente localmente em um navegador que suporta WebGPU sem depender de um servidor remoto. Isso se deve ao Transformers.js e à tecnologia ONNX Runtime Web, que permite que funções poderosas de reconhecimento visual sejam implementadas diretamente no navegador do usuário, mudando completamente a forma como os aplicativos de visão de IA são executados. Florence-2-base-ft tem 230 milhões de parâmetros e usa uma abordagem baseada em dicas para lidar com uma variedade de tarefas de linguagem visual e visual, incluindo geração de descrição de imagem, OCR, detecção de objetos e segmentação de imagens, ocupando apenas 340 MB de espaço de armazenamento. Continue trabalhando com modelos carregados mesmo quando estiver offline.
Recentemente, o mais recente modelo visual básico Florence-2 lançado pela Microsoft alcançou um grande avanço. Com a tecnologia Transformers.js, o modelo agora pode ser executado 100% nativamente em navegadores que suportam WebGPU. Esta inovação trouxe mudanças revolucionárias às aplicações de visão de IA, permitindo que poderosas funções de reconhecimento visual fossem implementadas diretamente no navegador do usuário, sem depender de servidores remotos.
Florence-2-base-ft é um modelo básico de visão de 230 milhões de parâmetros que usa uma abordagem baseada em pistas para lidar com uma ampla gama de tarefas de visão e linguagem visual. O modelo oferece suporte a uma variedade de recursos, incluindo, mas não se limitando a:
Geração de descrição de imagem Reconhecimento óptico de caracteres (OCR) Detecção de objeto Segmentação de imagem
Este modelo poderoso ocupa apenas 340 MB de espaço de armazenamento. Depois de carregado, ele será armazenado em cache no navegador e poderá ser chamado diretamente quando o usuário visitar a página novamente, sem fazer download novamente. O mais incrível é que todo o processo acontece de forma totalmente local no navegador do usuário, sem enviar nenhuma chamada de API ao servidor. Isso significa que depois que o modelo for carregado, os usuários ainda poderão usar todas as funções mesmo se desconectarem da Internet.
A operação localizada do Florence-2 se beneficia do suporte de Transformers.js e da tecnologia ONNX Runtime Web. Este avanço não só melhora o nível de proteção da privacidade do usuário, mas também reduz enormemente o custo de uso, abrindo caminho para a popularização e aplicação da tecnologia de visão de IA.
Para desenvolvedores e entusiastas de tecnologia, o modelo ONNX do Florence-2 agora é de acesso aberto na plataforma Hugging Face. Amigos interessados podem visitar https://huggingface.co/models?library=transformers.js&other=florence2 para mais detalhes. Além disso, o código-fonte do projeto também foi divulgado no GitHub, e os desenvolvedores podem obtê-lo através de https://github.com/xenova/transformers.js/tree/v3/examples/florence2-webgpu para exploração adicional e desenvolvimento.
Este avanço do Florence-2 promoverá, sem dúvida, o rápido desenvolvimento e a ampla popularização das aplicações de visão de IA. Podemos esperar que mais aplicações de visão inteligente baseadas em navegador mudem a nossa vida diária e a forma como trabalhamos num futuro próximo.
A capacidade de operação local do Florence-2 melhora a privacidade e a conveniência do usuário, reduz o limite de uso e traz possibilidades ilimitadas para o desenvolvimento futuro de aplicações de visão de IA. Seus modelos e códigos de código aberto também fornecem recursos valiosos aos desenvolvedores, e estamos ansiosos pelo surgimento de aplicativos mais inovadores.