กาลครั้งหนึ่งนานมาแล้วความสามารถในการจดจำภาพของปัญญาประดิษฐ์ยังคงถูก จำกัด ไว้ที่หมวดหมู่ที่ตั้งไว้ล่วงหน้าและรูปแบบคงที่ราวกับว่าสวม "ตัวกรอง" หนักและสามารถระบุได้ตาม "สคริปต์" ที่จัดตั้งขึ้น อย่างไรก็ตามด้วยการพัฒนาอย่างรวดเร็วของเทคโนโลยีสถานการณ์นี้ได้ถูกทำลายอย่างสมบูรณ์ โยโลโมรุ่น AI ใหม่นี้เป็นเหมือน "ศิลปินทัศนศิลป์" ที่ทำลายกุญแจมือ มันกล่าวคำอำลากับ "ความเชื่อที่เข้มงวด" ของการตรวจจับวัตถุแบบดั้งเดิมและเปิดยุคใหม่ของ "ทุกอย่างสามารถรับรู้ได้แบบเรียลไทม์" ลองนึกภาพว่า AI ไม่จำเป็นต้องพึ่งพาแท็กหมวดหมู่ที่กำหนดไว้ล่วงหน้าอีกต่อไป แต่สามารถเข้าใจทุกอย่างต่อหน้าคุณได้อย่างรวดเร็วเช่นเดียวกับมนุษย์เพียงแค่คำอธิบายข้อความภาพเบลอและแม้จะมีลูปเล็ก ๆ น้อย ๆ การพัฒนาที่ก่อกวนนี้เป็นการเปลี่ยนแปลงที่น่าตกใจที่เกิดจากโยเลo
การกำเนิดของโยโลอิดูเหมือนจะใส่คู่ของ "ดวงตาแห่งอิสรภาพ" ที่แท้จริงใน AI มันไม่รู้จักวัตถุที่กำหนดไว้ล่วงหน้าเช่นซีรี่ส์ YOLO ในอดีตอีกต่อไป แต่กลายเป็น "ผู้เล่นทุกรอบ" ไม่ว่าจะเป็นคำสั่งข้อความพร้อมท์ภาพหรือ "โหมดทดสอบตาบอด" โยลอี้สามารถจับภาพและเข้าใจวัตถุใด ๆ ในภาพแบบเรียลไทม์ได้อย่างง่ายดาย มหาอำนาจของ "การรับรู้ที่ไม่แตกต่าง" นี้ทำให้ความสามารถในการรับรู้ทางสายตาของ AI เป็นขั้นตอนการปฏิวัติสู่ความยืดหยุ่นและความฉลาดของมนุษย์

ดังนั้นโยเลoก็พัฒนาความสามารถนี้ในการ "มองผ่านทุกสิ่ง" ได้อย่างไร? คำตอบอยู่ในสามโมดูลนวัตกรรม: repta, savpe และ lrpc repta เป็นเหมือน "ตัวถอดรหัสข้อความ" ของ AI ซึ่งสามารถเข้าใจคำแนะนำข้อความได้อย่างถูกต้องและแปลงคำอธิบายข้อความเป็น "แผนที่การนำทาง" เพื่อการจดจำภาพ Savpe เป็น "เครื่องวิเคราะห์ภาพ" ของ AI ซึ่งสามารถแยกเบาะแสสำคัญจากพวกเขาและล็อคเป้าหมายได้อย่างรวดเร็วแม้จะต้องเผชิญกับภาพเบลอ และ LRPC เป็น "ทักษะที่ไม่เหมือนใคร" ของโยโล แม้จะไม่มีการแจ้งเตือนใด ๆ แต่ก็สามารถสแกนภาพได้อย่างอิสระ "ดึง" และระบุวัตถุการตั้งชื่อทั้งหมดจากห้องสมุดคำศัพท์ขนาดใหญ่โดยตระหนักถึงสถานะของ "ไม่มีครู" อย่างแท้จริง
จากมุมมองของสถาปัตยกรรมทางเทคนิคโยลอี้สืบทอดการออกแบบคลาสสิกของตระกูลโยโล แต่สร้างนวัตกรรมที่กล้าหาญในองค์ประกอบหลัก มันยังคงมีเครือข่ายกระดูกสันหลังที่ทรงพลังและเครือข่ายคอแพนซึ่งรับผิดชอบภาพ "กายวิภาค" และการแยกคุณสมบัติภาพหลายระดับ หัวกลับมาและหัวแยกเป็นเหมือน "การป้องกันซ้ายและซ้าย" หนึ่งมีหน้าที่ในการกำหนดกรอบขอบเขตของวัตถุอย่างแม่นยำและอีกฝ่ายรับผิดชอบในการกำหนดโครงร่างของวัตถุอย่างประณีต ความก้าวหน้าที่สำคัญที่สุดอยู่ในหัวการฝังหัวของโยโล มันแยกออกจากข้อ จำกัด ของ "ตัวจําแนก" ของโยโลแบบดั้งเดิมและสร้าง "พื้นที่ความหมาย" ที่ยืดหยุ่นมากขึ้นโดยวางรากฐานสำหรับการรับรู้คำศัพท์แบบเปิดฟรี ไม่ว่าจะเป็นคำแนะนำข้อความหรือคำแนะนำที่แสดงภาพโยโลลสามารถแปลงข้อมูลหลายรูปแบบเหล่านี้ให้เป็น "สัญญาณพรอมต์" แบบครบวงจรผ่านโมดูล reptA และ SAVPE เช่นเดียวกับการชี้ทิศทางสำหรับ AI
เพื่อที่จะตรวจสอบพลังการต่อสู้ที่แท้จริงของโยลอี้ทีมวิจัยได้ทำการทดสอบแบบฮาร์ดคอร์หลายชุด ในชุดข้อมูล LVIS ที่เชื่อถือได้ YOLOE แสดงให้เห็นถึงความสามารถในการตรวจจับตัวอย่างที่น่าทึ่งและได้รับความสมดุลที่สมบูรณ์แบบของประสิทธิภาพและประสิทธิภาพภายใต้ขนาดรุ่นที่แตกต่างกันเช่น "ผู้เล่นที่มีน้ำหนักเบา" เล่น "มวยเฮฟวี่เวท" ข้อมูลการทดลองพิสูจน์ให้เห็นว่าโยลอี้ไม่เพียง แต่มีความเร็วในการฝึกอบรมที่เร็วขึ้นเท่านั้น แต่ยังมีความแม่นยำในการรับรู้ที่สูงกว่าซึ่งเหนือกว่าตัวบ่งชี้สำคัญหลายตัว สิ่งที่น่าประหลาดใจยิ่งกว่านั้นคือโยลอี้ยังรวมงานหลักสองงาน: การตรวจจับวัตถุและการแบ่งอินสแตนซ์ซึ่งสามารถเรียกได้ว่า "หนึ่งพิเศษและพลังงานหลายพลังงาน" แสดงความสามารถในการประมวลผลแบบหลายงาน แม้ในสถานการณ์ "ไม่มีพรอมต์" ที่เข้มงวดที่สุดโยลี่ก็ยังทำงานได้ดีและความสามารถในการรับรู้แบบอิสระก็น่าประทับใจ
การวิเคราะห์ด้วยภาพแสดงให้เห็นถึง "ศิลปะการต่อสู้สิบแปดศิลปะ" ของโยโลลีมากขึ้น: ภายใต้ข้อความแจ้งข้อความสามารถระบุวัตถุของหมวดหมู่ที่ระบุได้อย่างแม่นยำ ในการเผชิญกับคำอธิบายข้อความใด ๆ มันยังสามารถ "ติดตามแผนที่"; ภายใต้คำแนะนำของเบาะแสภาพมันสามารถ "เข้าใจจิตใจ"; และในโหมดเงียบมันยังสามารถ "สำรวจอย่างอิสระ" โยลอี้ใช้งานง่ายในสถานการณ์ที่ซับซ้อนต่าง ๆ แสดงให้เห็นถึงความสามารถทั่วไปที่แข็งแกร่งและโอกาสในการใช้งานที่กว้าง
การถือกำเนิดของโยโลไม่เพียง แต่เป็นการอัพเกรดครั้งสำคัญสำหรับครอบครัวโยโลเท่านั้น แต่ยังเป็นนวัตกรรมที่ก่อกวนในการตรวจจับวัตถุทั้งหมด มันทำลาย "อุปสรรคหมวดหมู่" ของแบบจำลองดั้งเดิมและช่วยให้ความสามารถในการมองเห็นของ AI ย้ายไปยัง "โลกเปิด" อย่างแท้จริง ในอนาคต Yoloe คาดว่าจะแสดงจุดแข็งในด้านการขับขี่แบบอิสระความปลอดภัยอัจฉริยะการนำทางหุ่นยนต์ ฯลฯ เปิดโอกาสที่ไม่มีที่สิ้นสุดของแอพพลิเคชั่น AI Vision และอนุญาตให้เครื่องจักรมีสติปัญญาที่จะ "เข้าใจโลก" อย่างแท้จริง