Когда -то давным образом возможности визуального распознавания искусственного интеллекта все еще были ограничены предварительными категориями и фиксированными узорами, как будто ношение тяжелого «фильтра» и мог быть идентифицировано только в соответствии с установленным «сценарием». Однако с быстрым развитием технологий эта ситуация была полностью сломана. Йоло, эта новая модель ИИ, похожа на «визуального художника», который ломает кандалы. Это полностью прощается с «жесткой догмой» традиционного обнаружения объектов и открывает новую эру «все может быть признано в режиме реального времени». Представьте, что ИИ больше не нужно полагаться на предопределенные теги категорий, но может быстро понять все перед вами, как люди, просто по описанию текста, размытым изображениям и даже с небольшими петлями. Этот разрушительный прорыв - шокирующее изменение, внесенное Yoloe.
Рождение Йоло, кажется, положило пару истинных «глаз свободы» на ИИ. Он больше не распознает предопределенные объекты, такие как серия Yolo в прошлом, но становится «всесторонним игроком». Будь то текстовые команды, визуальные подсказки или «режим слепых испытаний», Yoloe может легко захватить и понимать любой объект на картинке в режиме реального времени. Эта сверхдержава «недифференциального признания» заставила ИИ возможности визуального восприятия сделать революционный шаг к человеческой гибкости и интеллекту.

Итак, как Yoloe развила эту способность «видеть сквозь все»? Ответ заключается в его трех инновационных модулях: PERPTA, SAVPE и LRPC. Perpta похожа на «текстовый декодер» ИИ, который может точно понять текстовые инструкции и преобразовать описания текста в «навигационные карты» для визуального распознавания; SAVPE - это «Анализатор изображений» ИИ, который может извлечь из них ключевые подсказки и быстро блокировать цели, даже когда они сталкиваются с размытыми изображениями; и LRPC - «уникальный навык» Йоло. Даже без каких -либо подсказок он может самостоятельно сканировать изображения, «извлечь» и определять все объекты именования из огромной словарной библиотеки, по -настоящему, реализуя состояние «нет учителя».
С точки зрения технической архитектуры, Йоло унаследовал классический дизайн семейства Йоло, но сделал смелые инновации в основных компонентах. Он по-прежнему имеет мощную сеть магистралей и сеть Pan News, ответственная за «анатомизирующие» изображения и извлечение многоуровневых визуальных функций. Возвращающаяся голова и разделенная голова похожи на «левую и левую защиту», одна отвечает за точное формирование границ объекта, а другой отвечает за точное определение контура объекта. Наиболее критический прорыв лежит в объекте, встраивающем голову Yoloe. Он отрывается от ограничений традиционных «классификаторов» и вместо этого создает более гибкое «семантическое пространство», закладывая основу для свободного распознавания открытого словаря. Будь то подсказка текста или визуальное руководство, Yoloe может преобразовать эту мультимодальную информацию в единый «быстрый сигнал» через модули PERPTA и SAVPE, как указание направления для ИИ.
Чтобы проверить истинную боевую силу Yoloe, исследовательская группа провела серию жестких тестов. В авторитетном наборе данных LVIS YOLOE демонстрирует удивительную возможность обнаружения с нулевым образцом и достигает идеального баланса эффективности и производительности при разных размерах модели, как и «легкий игрок», играющий в «тяжелый бокс». Экспериментальные данные доказывают, что Yoloe не только имеет более высокую скорость обучения, но и имеет более высокую точность распознавания, превосходя несколько ключевых показателей. Что еще более удивительно, так это то, что Yoloe также интегрирует две основные задачи: обнаружение объектов и деление экземпляров, которые можно назвать «одной специальностью и многоэнергетической», демонстрируя сильные возможности для обработки с несколькими задачами. Даже в самых строгих сценариях «без приглашения» Йоло все еще хорошо работает, и его автономные возможности распознавания впечатляют.
Визуальный анализ более интуитивно демонстрирует «восемнадцать боевых искусств» Yoloe: под текстовыми подсказками он может точно идентифицировать объекты указанных категорий; Перед лицом любого описания текста он также может «следить за картой»; Под руководством визуальных подсказок он может «понять разум»; И в молчаливом режиме он также может «исследовать самостоятельно». Yoloe проста в использовании в различных сложных сценариях, полностью демонстрируя свои сильные возможности обобщения и широкие перспективы применения.
Появление Yoloe - это не только крупное обновление для семьи Йоло, но и разрушительное инновации во всей области обнаружения объектов. Он нарушает «барьеры категории» традиционных моделей и позволяет визуальным возможностям ИИ по -настоящему перейти в «открытый мир». В будущем, как ожидается, Yoloe покажет свои сильные стороны в областях автономного вождения, интеллектуальной безопасности, навигации роботов и т. Д., Откроет бесконечные возможности приложений AI Vision и позволит машинах по -настоящему иметь мудрость, чтобы «понять мир».