Seperti apa kecerdasan buatan (AI) di masa depan? Bayangkan mereka dapat memahami dan melakukan tugas-tugas kompleks hanya dengan perintah sederhana; mereka juga dapat secara visual menangkap ekspresi dan gerakan pengguna untuk menentukan keadaan emosi mereka. Ini bukan lagi adegan dalam film fiksi ilmiah Hollywood, melainkan "AI multi-modal" yang secara bertahap menjadi kenyataan.
Menurut laporan baru-baru ini oleh situs web "Forbes" AS, raksasa seperti Metaverse Platform Company, OpenAI, dan Google semuanya telah meluncurkan sistem AI multi-modal mereka sendiri dan berupaya keras untuk meningkatkan investasi dalam penelitian dan pengembangan sistem tersebut dan berupaya untuk meningkatkan berbagai model. untuk meningkatkan akurasi keluaran konten dinamis, sehingga meningkatkan pengalaman interaktif antara AI dan pengguna.
AI multimodal menandai perubahan paradigma. Hal ini akan sangat mengubah wajah banyak industri dan membentuk kembali dunia digital.
Memberikan kemampuan “multi-sensor” pada AI
Bagaimana manusia memahami dunia? Kita mengandalkan berbagai indera seperti penglihatan, pendengaran, dan sentuhan untuk menerima informasi dari sumber yang tak terhitung jumlahnya. Otak manusia mengintegrasikan pola data yang kompleks ini untuk menggambar "gambaran" realitas yang jelas.
Situs web resmi IBM mendefinisikan AI multi-modal sebagai berikut: ia dapat mengintegrasikan dan memproses model pembelajaran mesin dari berbagai modalitas (tipe data), termasuk masukan dalam bentuk teks, gambar, audio, video, dll. Ini seperti memberi AI serangkaian indra sehingga ia dapat melihat dan memahami masukan informasi dari berbagai sudut.
Kemampuan untuk memahami dan membuat informasi dalam berbagai modalitas telah melampaui AI modal tunggal sebelumnya yang berfokus pada pengintegrasian dan pemrosesan sumber data tertentu, dan telah memenangkan hati raksasa teknologi besar.
Pada Konferensi Komunikasi Seluler tahun ini, Qualcomm menerapkan model multi-modal besar yang dikembangkannya pada ponsel Android untuk pertama kalinya. Baik pengguna memasukkan foto, suara, atau informasi lainnya, mereka dapat berkomunikasi dengan lancar dengan asisten AI. Misalnya, pengguna dapat mengambil foto makanan dan bertanya kepada asisten AI: Bahan apa sajakah ini? Hidangan apa yang bisa dibuat? Berapa banyak kalori dalam setiap hidangan? Asisten AI dapat memberikan jawaban detail berdasarkan informasi foto.
Pada bulan Mei tahun ini, OpenAI merilis model multi-modal GPT-4o, yang mendukung input dan output dari kombinasi teks, audio, dan gambar apa pun. Selanjutnya, Google juga meluncurkan produk AI multimodal terbarunya Gemini 1.5 Pro keesokan harinya.
Pada tanggal 25 September, Perusahaan Platform Metaverse merilis model bahasa besar open source terbarunya Llama 3.2. CEO perusahaan Mark Zuckerberg mengatakan dalam pidato utamanya bahwa ini adalah model multi-modal open source pertama perusahaan yang dapat memproses data teks dan visual secara bersamaan, menandai kemajuan signifikan AI dalam memahami skenario aplikasi yang lebih kompleks.
Diam-diam mendorong perubahan di berbagai bidang
AI multimodal diam-diam mengubah wajah banyak bidang.
Di bidang layanan kesehatan, "Watson Health" IBM menganalisis secara komprehensif data pencitraan pasien, teks rekam medis, dan data genetik untuk membantu dokter mendiagnosis penyakit dengan lebih akurat dan sangat mendukung dokter dalam merumuskan rencana perawatan yang dipersonalisasi untuk pasien.
Industri kreatif juga sedang mengalami transformasi. Pakar pemasaran digital dan pembuat film memanfaatkan teknologi ini untuk membuat konten yang disesuaikan. Bayangkan saja, hanya dengan sebuah prompt atau konsep sederhana, sistem AI dapat menulis naskah yang menarik, menghasilkan storyboard (rangkaian ilustrasi yang disusun bersama untuk membentuk sebuah cerita visual), membuat soundtrack, dan bahkan menghasilkan potongan adegan awal.
Bidang pendidikan dan pelatihan juga bergerak menuju pembelajaran yang dipersonalisasi dengan bantuan AI multimodal. Platform pembelajaran adaptif yang dikembangkan oleh Newton Company di Amerika Serikat dapat menggunakan AI multi-modal untuk menganalisis secara mendalam perilaku belajar, ekspresi, dan suara siswa, serta menyesuaikan konten dan kesulitan pengajaran secara real time. Data percobaan menunjukkan bahwa metode ini dapat meningkatkan efisiensi belajar siswa sebesar 40%.
Layanan pelanggan juga merupakan salah satu aplikasi menarik dari sistem AI multimodal. Chatbot tidak hanya dapat merespons pertanyaan teks, mereka juga dapat memahami nada suara pelanggan, menganalisis ekspresi wajah mereka, dan merespons dengan bahasa dan isyarat visual yang sesuai. Komunikasi yang lebih manusiawi ini menjanjikan revolusi dalam cara bisnis berinteraksi dengan pelanggan.
Tantangan etika teknologi masih perlu diatasi
Namun, pengembangan AI multimodal juga menghadapi banyak tantangan.
Henry Idel, pendiri perusahaan konsultan AI Hidden Space, mengatakan bahwa kekuatan AI multimodal terletak pada kemampuannya untuk mengintegrasikan berbagai tipe data. Namun, cara mengintegrasikan data ini secara efektif masih menjadi permasalahan teknis.
Selain itu, model AI multi-modal sering kali mengonsumsi sumber daya komputasi dalam jumlah besar selama pengoperasiannya, yang tentu saja meningkatkan biaya penerapannya.
Khususnya, data multimodal berisi lebih banyak informasi pribadi. Ketika sistem AI multi-modal dapat dengan mudah mengidentifikasi wajah, suara, dan bahkan keadaan emosi, bagaimana memastikan privasi pribadi dihormati dan dilindungi? Dan bagaimana langkah-langkah efektif dapat diambil untuk mencegahnya digunakan untuk membuat “deepfakes” atau konten menyesatkan lainnya? Ini semua adalah pertanyaan yang patut direnungkan.