옛날 옛적에 인공 지능의 시각적 인식 기능은 여전히 "필터"를 착용하는 것처럼 사전 설정 범주 및 고정 패턴으로 제한되었으며 확립 된 "스크립트"에 따라 식별 할 수있었습니다. 그러나 기술의 빠른 발전으로 인해 이러한 상황은 완전히 깨졌습니다. 이 새로운 AI 모델 인 Yoloe는 족쇄를 깨는 "시각 예술가"와 같습니다. 그것은 전통적인 물체 탐지의 "단단한 교리"에 작별 인사를하고 "모든 것이 실시간으로 인식 될 수있다"라는 새로운 시대를 열어줍니다. AI가 더 이상 사전 정의 된 카테고리 태그에 의존 할 필요가 없지만 텍스트 설명, 흐름 이미지, 심지어 작은 루프로 인간과 같은 모든 것을 빠르게 이해할 수 있다고 상상해보십시오. 이 파괴적인 돌파구는 Yoloe가 가져온 충격적인 변화입니다.
Yoloe의 탄생은 AI에 한 쌍의 진정한 "자유의 눈"을 넣은 것 같습니다. 과거에는 Yolo 시리즈와 같은 사전 정의 된 객체를 더 이상 인식하지 못하지만 "만능 플레이어"가됩니다. 텍스트 명령, 시각적 프롬프트 또는 "블라인드 테스트 모드"이든, Yoloe는 사진의 모든 객체를 실시간으로 쉽게 캡처하고 이해할 수 있습니다. "미분식 인식"의이 초강대국은 AI의 시각적 인식 능력이 인간의 유연성과 지능을 향한 혁신적인 단계를 밟게 만들었습니다.

그렇다면 Yoloe는 어떻게 "모든 것을 볼 수있는"이 능력을 개발 했습니까? 답은 reprta, Savpe 및 LRPC의 세 가지 혁신적인 모듈에 있습니다. Reprta는 AI의 "텍스트 디코더"와 같습니다.이 텍스트 지침을 정확하게 이해하고 텍스트 설명을 시각적 인식을 위해 "탐색 맵"으로 변환 할 수 있습니다. Savpe는 AI의 "이미지 분석기"이며, 이는 주요 단서를 추출하고 흐릿한 그림에 직면했을 때에도 목표를 빠르게 잠글 수 있습니다. LRPC는 Yoloe의 "독특한 기술"입니다. 프롬프트가 없어도 이미지를 독립적으로 스캔하고 "검색"하고 대규모 어휘 라이브러리에서 모든 이름 지정 개체를 식별하여 "교사 없음"의 상태를 실현할 수 있습니다.
기술 아키텍처 관점에서 Yoloe는 Yolo 제품군의 고전적인 디자인을 물려 받았지만 핵심 구성 요소에서 대담한 혁신을 만들었습니다. 여전히 강력한 백본 네트워크와 Pan Neck Network가 있으며, 이미지를 "아나 토화"이미지화하고 다단계 시각적 기능을 추출합니다. 리턴 헤드와 스플릿 헤드는 "왼쪽과 왼쪽 보호"와 같으며, 하나는 객체의 경계를 정확하게 프레임하고 다른 하나는 객체의 개요를 미세하게 묘사 할 책임이 있습니다. 가장 중요한 돌파구는 Yoloe의 객체를 포함시킵니다. 그것은 전통적인 Yolo "분류기"의 제약에서 벗어나 더 유연한 "의미 론적 공간"을 구축하여 개방형 어휘의 자유로운 인식을위한 토대를 마련합니다. 텍스트 프롬프트 또는 시각적 지침이든, Yoloe는 AI의 방향을 가리키는 것과 같이 이러한 멀티 모달 정보를 Reprta 및 Savpe 모듈을 통해 통합 된 "프롬프트 신호"로 변환 할 수 있습니다.
Yoloe의 진정한 전투력을 확인하기 위해 연구팀은 일련의 하드 코어 테스트를 수행했습니다. 권위있는 LVIS 데이터 세트에서 Yoloe는 놀라운 제로 샘플 감지 기능을 보여주고 "헤비급 권투"를 연주하는 "경량 플레이어"와 마찬가지로 다양한 모델 크기에서 효율성과 성능의 완벽한 균형을 달성합니다. 실험 데이터는 Yoloe가 교육 속도가 빠를뿐만 아니라 인식 정확도가 높을수록 여러 주요 지표를 능가한다는 것을 증명합니다. 더 놀라운 것은 Yoloe가 두 가지 주요 작업을 통합한다는 것입니다. 객체 감지 및 인스턴스 부문은 "하나의 특수 및 다중 에너지"라고 불릴 수 있으며 강력한 멀티 태스킹 처리 기능을 보여줍니다. 가장 엄격한 "프롬프트 없음"시나리오에서도 Yoloe는 여전히 잘 수행되며 자율적 인 인식 기능은 인상적입니다.
시각적 분석은 Yoloe의 "18 무술"을보다 직관적으로 입증합니다. 텍스트 프롬프트에서는 지정된 범주의 객체를 정확하게 식별 할 수 있습니다. 텍스트 설명에 직면하여 "지도를 따를 수도 있습니다". 시각적 단서의지도하에, 그것은 "마음을 이해할 수있다". 그리고 사일런트 모드에서는 "독립적으로 탐구 할 수 있습니다". Yoloe는 다양한 복잡한 시나리오에서 사용하기 쉽고 강력한 일반화 기능과 광범위한 응용 프로그램 전망을 완전히 보여줍니다.
Yoloe의 출현은 Yolo 가족에 대한 주요 업그레이드 일뿐 만 아니라 전체 객체 탐지 분야에서 파괴적인 혁신이기도합니다. 전통적인 모델의 "범주 장벽"을 깨뜨리고 AI의 시각적 기능이 진정으로 "개방형 세계"로 이동할 수 있습니다. 앞으로 Yoloe는 자율 주행, 지능형 보안, 로봇 내비게이션 등 분야에서 강점을 보여줄 것으로 예상됩니다.