Microsoft запускает новейшую базовую визуальную модель Florence-2 для локального запуска в браузере

Автор：Eve Cole Время обновления：2025-02-27 05:00:03

Последняя базовая визуальная модель Microsoft Florence-2 совершила большой прорыв. Она может работать полностью локально в браузере, поддерживающем WebGPU, не полагаясь на удаленный сервер. Это стало возможным благодаря веб-технологии Transformers.js и ONNX Runtime, которая позволяет реализовать мощные функции визуального распознавания непосредственно в браузере пользователя, полностью меняя способ работы приложений искусственного интеллекта. Florence-2-base-ft имеет 230 миллионов параметров и использует подход на основе подсказок для решения различных задач визуального и визуального языка, включая генерацию описания изображения, распознавание символов, обнаружение объектов и сегментацию изображений, занимая при этом всего 340 МБ дискового пространства. Продолжайте работать с загруженными моделями даже в автономном режиме.

Недавно последняя базовая модель Visual Florence-2, выпущенная Microsoft, добилась значительного прорыва. Благодаря технологии Transformers.js модель теперь может работать на 100% в браузерах, поддерживающих WebGPU. Этот прорыв принес революционные изменения в приложениях искусственного зрения, позволяя реализовать мощные функции визуального распознавания непосредственно в браузере пользователя, не полагаясь на удаленные серверы.

Florence-2-base-ft — это базовая модель зрения с 230 миллионами параметров, которая использует подход на основе сигналов для решения широкого спектра задач по зрению и визуальному языку. Модель поддерживает множество функций, включая, помимо прочего:

Описание изображения Генерация Оптическое распознавание символов (OCR) Обнаружение объектов Сегментация изображения

Эта мощная модель занимает всего 340 МБ дискового пространства. После загрузки она будет кэширована в браузере и может быть вызвана напрямую, когда пользователь снова посетит страницу, без повторной загрузки. Самое удивительное, что весь процесс происходит полностью локально в браузере пользователя без отправки каких-либо вызовов API на сервер. Это означает, что после загрузки модели пользователи по-прежнему смогут использовать все функции, даже если отключатся от Интернета.

Локализованная работа Florence-2 обеспечивается поддержкой Transformers.js и веб-технологии ONNX Runtime. Этот прорыв не только повышает уровень защиты конфиденциальности пользователей, но и значительно снижает стоимость использования, открывая путь к популяризации и применению технологии искусственного зрения.

Для разработчиков и энтузиастов технологий модель ONNX Florence-2 теперь открыта для доступа на платформе Hugging Face. Заинтересованные друзья могут посетить https://huggingface.co/models?library=transformers.js&other=florence2 для получения более подробной информации. Кроме того, исходный код проекта также опубликован на GitHub, и разработчики могут получить его через https://github.com/xenova/transformers.js/tree/v3/examples/florence2-webgpu для дальнейшего изучения и разработки. разработка.

Этот прорыв Флоренции-2, несомненно, будет способствовать быстрому развитию и широкой популяризации приложений искусственного зрения. Мы можем ожидать, что в ближайшем будущем больше приложений для интеллектуального зрения на базе браузера изменят нашу повседневную жизнь и то, как мы работаем.

Возможности локального управления Florence-2 повышают конфиденциальность и удобство пользователей, снижают порог использования и открывают неограниченные возможности для будущей разработки приложений машинного зрения на базе искусственного интеллекта. Ее модели и коды с открытым исходным кодом также предоставляют разработчикам богатые ресурсы, и мы с нетерпением ждем появления более инновационных приложений.