fiftyone multimodal rag plugin Unduh - fiftyone multimodal rag plugin Source Code Unduh

fiftyone multimodal rag plugin

Kode sumber lainnya

1.0.0

Unduh

Kain multimodal dengan lima puluh satu, llamaindex, dan milvus

Perkenalan

Pengambilan Generasi augmentated (RAG) telah semakin populer sebagai cara untuk meningkatkan kualitas teks yang dihasilkan oleh model bahasa besar. Sekarang LLM multimodal berada di Vouge, sekarang saatnya untuk memperluas data multimodal.

Ketika kami menambahkan kemampuan untuk mencari dan mengambil data di berbagai modalitas, kami mendapatkan alat yang kuat untuk berinteraksi dengan model AI paling kuat yang tersedia saat ini. Namun, kami juga menambahkan lapisan kompleksitas baru ke dalam proses.

Beberapa pertimbangan yang perlu kita pertimbangkan termasuk:

Bagaimana cara kita memotong dan mengindeks data multimodal? Apakah kita membaginya menjadi modalitas terpisah atau tetap bersama?
Bagaimana cara mencari data multimodal? Apakah kita mencari setiap modalitas secara terpisah dan kemudian menggabungkan hasilnya, atau apakah kita mencarinya bersama?
Strategi baru apa yang dapat kami gunakan untuk meningkatkan kualitas data yang kami hasilkan?

Pada tingkat yang lebih praktis, berikut adalah beberapa tombol dasar yang dapat kita putar:

Model Embedding Teks: Model mana yang kita gunakan untuk menyematkan teks?
Representasi gambar: Apakah kita menyematkan gambar dengan model multimodal (seperti klip) atau menggunakan teks?
Berapa banyak hasil gambar dan teks yang ingin kami ambil?
Model multimodal mana yang kami gunakan untuk menghasilkan hasil pengambilan kami?

Proyek ini adalah testbed untuk mengeksplorasi pertanyaan -pertanyaan ini dan banyak lagi. Ini menggunakan tiga perpustakaan open source, Fiftyone, Llamaindex, dan Milvus, untuk membuat proses bekerja dengan data multimodal, bereksperimen dengan berbagai teknik kain multimodal, dan menemukan apa yang paling cocok untuk kasus penggunaan Anda semudah mungkin.

️ Proyek ini sedang dalam proses. Mungkin kasar di sekitar tepi, dan beberapa fitur mungkin tidak berfungsi seperti yang diharapkan. Jika Anda mengalami masalah apa pun, buka masalah di repositori ini - atau lebih baik lagi, kirimkan permintaan tarik!

Perhatikan juga bahwa Llamaindex sering memperbarui API -nya. Inilah mengapa versi llamaindex dan paket terkait semuanya disematkan?

Instalasi

Pertama, instal Fiftyone:

pip install fiftyone

Selanjutnya, menggunakan sintaks CLI Fiftyone, unduh dan instal plugin FiftyOne Multimodal Rag:

fiftyone plugins download https://github.com/jacobmarks/fiftyone-multimodal-rag-plugin

LlamAinDex memiliki proses instalasi verbose (jika Anda ingin membangun apa pun multimodal setidaknya). Untungnya bagi Anda, ini (dan semua dependensi instalasi lainnya) akan diurus dengan perintah berikut:

fiftyone plugins requirements @jacobmarks/multimodal_rag --install

Penggunaan

Pengaturan

Untuk memulai, luncurkan aplikasi FiftyOne. Anda dapat melakukannya dari terminal dengan menjalankan:

fiftyone app launch

Atau Anda dapat menjalankan kode Python berikut:

 import fiftyone as fo

session = fo . launch_app ()

Membuat dataset multimodal

Sekarang tekan tombol backtick ( ` ) dan ketik create_dataset_from_llama_documents . Tekan Enter untuk membuka modal operator. Operator ini memberi Anda UI untuk memilih direktori yang berisi data multimodal Anda (gambar, file teks, PDF, dll) dan membuat dataset lima puluh satu darinya.

Setelah Anda memilih direktori, jalankan operator. Ini akan membuat dataset baru di sesi FiftyOne Anda. Untuk file teks, Anda akan melihat gambar rendering teks terpotong. Untuk gambar, Anda akan melihat gambar itu sendiri.

Anda dapat menambahkan direktori tambahan data multimodal dengan operator add_llama_documents_to_dataset .

Mengindeks Dataset Multimodal

Sekarang Anda memiliki dataset multimodal, Anda dapat mengindeksnya dengan llamaindex dan milvus. Gunakan operator create_multimodal_rag_index untuk memasuki proses ini. Operator ini akan meminta Anda untuk memberi nama indeks, dan akan memberi Anda opsi untuk mengindeks gambar melalui klip embeddings atau teks. Jika Anda memilih teks, Anda akan diminta untuk memilih bidang teks untuk digunakan sebagai keterangan.

Jika Anda tidak memiliki teks pada dataset Anda, Anda mungkin tertarik dengan plugin Captioning Gambar FiftyOne.

fiftyone plugins download https://github.com/jacobmarks/fiftyone-image-captioning-plugin

Periksa indeks

Setelah Anda membuat indeks, Anda dapat memeriksanya dengan menjalankan operator get_multimodal_rag_index_info dan memilih indeks yang ingin Anda periksa dari dropdown.

Menanyakan indeks

Akhirnya, Anda dapat meminta indeks dengan operator query_multimodal_rag_index . Operator ini akan meminta Anda untuk memasukkan string kueri, dan indeks untuk meminta.

Anda juga dapat menentukan model multimodal yang akan digunakan untuk menghasilkan hasil pengambilan-pengambilan, serta jumlah hasil gambar dan teks untuk diambil.

Model multimodal yang didukung

GPT-4V
Google Gemini Pro Vision
COG-VLM
Fuyu-8b
Llava-13b
Minigpt-4

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-05-26
ukuran 12.51KB
Berasal dari Github

Aplikasi Terkait

scite zotero plugin

2024-11-08
BaseElements Plugin

2024-11-07
index cli plugin

2024-11-06
Cats Blender Plugin Unofficial

2024-11-05
napari plugin manager

2024-11-04
Plugin Gambar Super

2009-04-18

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua