Baru-baru ini, Google merilis model visi-bahasa baru (VLM) yang disebut Paligemma2mix, sebuah inovasi yang menandai terobosan besar dalam teknologi kecerdasan buatan di bidang pemrosesan gambar dan teks. Paligemma2Mix tidak hanya dapat memproses informasi visual dan input teks secara bersamaan, tetapi juga menghasilkan output yang sesuai sesuai dengan persyaratan, memberikan dukungan teknis yang kuat untuk multitasking.
Paligemma2mix memiliki fungsi yang sangat komprehensif, mencakup berbagai tugas bahasa visual seperti deskripsi gambar, pengenalan karakter optik (OCR), pertanyaan dan jawaban gambar, deteksi objek dan segmentasi gambar. Apakah pengembang atau peneliti dapat menggunakan model secara langsung melalui pos pemeriksaan pra-pelatihan, atau menyempurnakan sesuai dengan kebutuhan spesifik, untuk memenuhi kebutuhan berbagai skenario aplikasi.

Sebagai versi yang dioptimalkan dari Paligemma2, Paligemma2mix telah disesuaikan secara khusus untuk tugas -tugas hibrida, yang bertujuan untuk memberikan pengalaman eksplorasi yang lebih nyaman kepada pengembang. Model ini memberikan tiga skala parameter, termasuk 3B (3 miliar parameter), 10b (10 miliar parameter) dan 28b (28 miliar parameter), dan mendukung dua resolusi: 224px dan 448px, yang secara fleksibel dapat beradaptasi dengan berbagai sumber daya komputasi dan persyaratan tugas.
Sorotan fungsional inti dari Paligemma2mix termasuk deskripsi gambar, pengenalan karakter optik (OCR), pertanyaan gambar dan jawaban dan deteksi objek. Dalam hal deskripsi gambar, model ini dapat menghasilkan deskripsi pendek atau panjang yang terperinci, seperti mengidentifikasi gambar sapi yang berdiri di pantai dan memberikan deskripsi yang kaya. Dalam hal OCR, dapat mengekstraksi teks dari gambar, mengidentifikasi logo, label dan konten dokumen, memberikan kenyamanan besar untuk ekstraksi informasi. Selain itu, pengguna juga dapat mengunggah gambar dan mengajukan pertanyaan. Model ini akan menganalisis gambar dan memberikan jawaban yang akurat, dan juga dapat mengidentifikasi objek spesifik dalam gambar, seperti hewan, kendaraan, dll.
Perlu disebutkan bahwa pengembang dapat mengunduh bobot campuran Paligemma2Mix melalui platform Kaggle dan memeluk wajah untuk memfasilitasi eksperimen dan pengembangan lebih lanjut. Jika Anda tertarik pada model ini, Anda dapat menjelajahi melalui platform demonstrasi Hugging Face untuk mendapatkan wawasan tentang fitur dan potensi aplikasinya yang kuat.
Dengan peluncuran Paligemma2Mix, penelitian Google di bidang model-model penglihatan telah mengambil langkah penting lainnya. Model ini tidak hanya menunjukkan potensi besar teknologi kecerdasan buatan, tetapi juga memberikan lebih banyak kemungkinan untuk aplikasi praktis di masa depan. Kami menantikan teknologi ini untuk menunjukkan nilainya di lebih banyak bidang dan mempromosikan pengembangan lebih lanjut dari teknologi kecerdasan buatan.
Laporan Teknis: https://arxiv.org/abs/2412.03555