Model visual basic terbaru dari Microsoft Florence-2 telah mencapai terobosan besar. Model ini dapat berjalan sepenuhnya secara lokal di browser yang mendukung WebGPU tanpa bergantung pada server jarak jauh. Hal ini berkat teknologi Transformers.js dan ONNX Runtime Web, yang memungkinkan fungsi pengenalan visual yang kuat untuk diterapkan langsung di browser pengguna, sehingga sepenuhnya mengubah cara aplikasi visi AI dijalankan. Florence-2-base-ft memiliki 230 juta parameter dan menggunakan pendekatan berbasis petunjuk untuk menangani berbagai tugas bahasa visual dan visual, termasuk pembuatan deskripsi gambar, OCR, deteksi objek, dan segmentasi gambar, serta hanya menempati ruang penyimpanan sebesar 340MB. Terus bekerja dengan model yang dimuat bahkan saat offline.
Baru-baru ini, Florence-2, model visual basic terbaru yang diluncurkan oleh Microsoft, telah mencapai terobosan besar. Dengan teknologi Transformers.js, model tersebut kini dapat berjalan 100% secara native di browser yang mendukung WebGPU. Terobosan ini membawa perubahan revolusioner pada aplikasi visi AI, memungkinkan fungsi pengenalan visual yang kuat untuk diterapkan langsung di browser pengguna tanpa bergantung pada server jarak jauh.
Florence-2-base-ft adalah model basis visi dengan 230 juta parameter yang menggunakan pendekatan berbasis isyarat untuk menangani berbagai tugas visi dan bahasa visual. Model ini mendukung berbagai fitur, termasuk namun tidak terbatas pada:
Deskripsi Gambar Segmentasi Gambar Deteksi Objek Pengenalan Karakter Optik (OCR).
Model canggih ini hanya memakan ruang penyimpanan sebesar 340MB. Setelah dimuat, model tersebut akan disimpan dalam cache di browser dan dapat dipanggil langsung saat pengguna mengunjungi halaman tersebut lagi tanpa mengunduh ulang. Hal yang paling menakjubkan adalah seluruh proses terjadi sepenuhnya secara lokal di browser pengguna tanpa mengirimkan panggilan API apa pun ke server. Artinya, setelah model dimuat, pengguna masih dapat menggunakan semua fungsi meskipun terputus dari Internet.
Pengoperasian Florence-2 yang dilokalkan mendapat manfaat dari dukungan teknologi Transformers.js dan ONNX Runtime Web. Terobosan ini tidak hanya meningkatkan tingkat perlindungan privasi pengguna, namun juga sangat mengurangi biaya penggunaan, membuka jalan bagi mempopulerkan dan penerapan teknologi visi AI.
Bagi pengembang dan penggemar teknologi, model ONNX Florence-2 kini memiliki akses terbuka di platform Hugging Face. Teman yang berminat dapat mengunjungi https://huggingface.co/models?library=transformers.js&other=florence2 untuk lebih jelasnya. Selain itu, kode sumber proyek juga telah dipublikasikan di GitHub, dan pengembang dapat memperolehnya melalui https://github.com/xenova/transformers.js/tree/v3/examples/florence2-webgpu untuk eksplorasi lebih lanjut dan perkembangan.
Terobosan Florence-2 ini tidak diragukan lagi akan mendorong perkembangan pesat dan mempopulerkan aplikasi visi AI secara luas. Kita dapat mengharapkan lebih banyak aplikasi visi cerdas berbasis browser yang akan mengubah kehidupan kita sehari-hari dan cara kita bekerja dalam waktu dekat.
Kemampuan operasi lokal Florence-2 meningkatkan privasi dan kenyamanan pengguna, menurunkan ambang batas penggunaan, dan memberikan kemungkinan tak terbatas untuk pengembangan aplikasi visi AI di masa depan. Model dan kode sumber terbukanya juga menyediakan sumber daya yang kaya bagi pengembang, dan kami menantikan munculnya aplikasi yang lebih inovatif.