Pengambilan Generasi augmentated (RAG) telah semakin populer sebagai cara untuk meningkatkan kualitas teks yang dihasilkan oleh model bahasa besar. Sekarang LLM multimodal berada di Vouge, sekarang saatnya untuk memperluas data multimodal.
Ketika kami menambahkan kemampuan untuk mencari dan mengambil data di berbagai modalitas, kami mendapatkan alat yang kuat untuk berinteraksi dengan model AI paling kuat yang tersedia saat ini. Namun, kami juga menambahkan lapisan kompleksitas baru ke dalam proses.
Beberapa pertimbangan yang perlu kita pertimbangkan termasuk:
Pada tingkat yang lebih praktis, berikut adalah beberapa tombol dasar yang dapat kita putar:
Proyek ini adalah testbed untuk mengeksplorasi pertanyaan -pertanyaan ini dan banyak lagi. Ini menggunakan tiga perpustakaan open source, Fiftyone, Llamaindex, dan Milvus, untuk membuat proses bekerja dengan data multimodal, bereksperimen dengan berbagai teknik kain multimodal, dan menemukan apa yang paling cocok untuk kasus penggunaan Anda semudah mungkin.
Perhatikan juga bahwa Llamaindex sering memperbarui API -nya. Inilah mengapa versi llamaindex dan paket terkait semuanya disematkan?
Pertama, instal Fiftyone:
pip install fiftyoneSelanjutnya, menggunakan sintaks CLI Fiftyone, unduh dan instal plugin FiftyOne Multimodal Rag:
fiftyone plugins download https://github.com/jacobmarks/fiftyone-multimodal-rag-pluginLlamAinDex memiliki proses instalasi verbose (jika Anda ingin membangun apa pun multimodal setidaknya). Untungnya bagi Anda, ini (dan semua dependensi instalasi lainnya) akan diurus dengan perintah berikut:
fiftyone plugins requirements @jacobmarks/multimodal_rag --installUntuk memulai, luncurkan aplikasi FiftyOne. Anda dapat melakukannya dari terminal dengan menjalankan:
fiftyone app launchAtau Anda dapat menjalankan kode Python berikut:
import fiftyone as fo
session = fo . launch_app () Sekarang tekan tombol backtick ( ` ) dan ketik create_dataset_from_llama_documents . Tekan Enter untuk membuka modal operator. Operator ini memberi Anda UI untuk memilih direktori yang berisi data multimodal Anda (gambar, file teks, PDF, dll) dan membuat dataset lima puluh satu darinya.
Setelah Anda memilih direktori, jalankan operator. Ini akan membuat dataset baru di sesi FiftyOne Anda. Untuk file teks, Anda akan melihat gambar rendering teks terpotong. Untuk gambar, Anda akan melihat gambar itu sendiri.
Anda dapat menambahkan direktori tambahan data multimodal dengan operator add_llama_documents_to_dataset .
Sekarang Anda memiliki dataset multimodal, Anda dapat mengindeksnya dengan llamaindex dan milvus. Gunakan operator create_multimodal_rag_index untuk memasuki proses ini. Operator ini akan meminta Anda untuk memberi nama indeks, dan akan memberi Anda opsi untuk mengindeks gambar melalui klip embeddings atau teks. Jika Anda memilih teks, Anda akan diminta untuk memilih bidang teks untuk digunakan sebagai keterangan.
Jika Anda tidak memiliki teks pada dataset Anda, Anda mungkin tertarik dengan plugin Captioning Gambar FiftyOne.
fiftyone plugins download https://github.com/jacobmarks/fiftyone-image-captioning-plugin Setelah Anda membuat indeks, Anda dapat memeriksanya dengan menjalankan operator get_multimodal_rag_index_info dan memilih indeks yang ingin Anda periksa dari dropdown.
Akhirnya, Anda dapat meminta indeks dengan operator query_multimodal_rag_index . Operator ini akan meminta Anda untuk memasukkan string kueri, dan indeks untuk meminta.
Anda juga dapat menentukan model multimodal yang akan digunakan untuk menghasilkan hasil pengambilan-pengambilan, serta jumlah hasil gambar dan teks untuk diambil.