檢索增強發電(RAG)越來越受歡迎,作為提高大語模型產生的文本質量的一種方式。現在,多模式LLM位於Vouge,是時候將抹布擴展到多模式數據了。
當我們添加跨多種模式搜索和檢索數據的能力時,我們將獲得一個功能強大的工具,可以與當今可用的最強大的AI模型進行交互。但是,我們還為流程添加了全新的複雜性。
我們需要考慮的一些考慮因素包括:
從更實用的角度來看,以下是我們可以轉動的一些基本旋鈕:
該項目是探索這些問題等的測試台。它使用三個開源庫,即五十一個,LlamainDex和Milvus,以使使用多模式數據,嘗試不同的多模式抹布技術,並儘可能輕鬆地找到最適合您的用例的過程。
另請注意,LlamainDex經常更新其API。這就是為什麼將LlamainDex及其相關包裝的版本都固定的原因?
首先,安裝fiftyone:
pip install fiftyone接下來,使用FiftyOne的CLI語法,下載並安裝FiftyOne多模式插件:
fiftyone plugins download https://github.com/jacobmarks/fiftyone-multimodal-rag-pluginLlamainDex具有詳細的安裝過程(如果您想構建任何多模式)。對您來說幸運的是,此(以及所有其他安裝依賴項)將通過以下命令來照顧:
fiftyone plugins requirements @jacobmarks/multimodal_rag --install首先,啟動fiftyone應用程序。您可以通過運行從終端進行操作:
fiftyone app launch或者您可以運行以下Python代碼:
import fiftyone as fo
session = fo . launch_app ()現在按Backtick鍵( ` ),然後鍵入create_dataset_from_llama_documents 。按Enter打開操作員的模態。該操作員為您提供了一個UI,可以選擇一個包含多模式數據(圖像,文本文件,PDF等)的目錄,並從中創建一個fiftyOne數據集。
選擇目錄後,請執行操作員。它將在您的fiftyone會話中創建一個新的數據集。對於文本文件,您將看到截短文本的圖像渲染。對於圖像,您將看到圖像本身。
您可以使用add_llama_documents_to_dataset Operator添加多模式數據的其他目錄。
現在您擁有一個多模式數據集,可以將其與LlamainDex和Milvus索引。使用create_multimodal_rag_index操作員輸入此過程。該操作員將提示您命名索引,並為您提供通過剪輯嵌入或字幕索引圖像的選項。如果選擇字幕,將提示您選擇以用作標題的文本字段。
如果您的數據集上沒有字幕,則可能對fiftyone圖像字幕插件感興趣。
fiftyone plugins download https://github.com/jacobmarks/fiftyone-image-captioning-plugin創建索引後,您可以通過運行get_multimodal_rag_index_info操作員來檢查它,並選擇要從下拉列表進行檢查的索引。
最後,您可以使用query_multimodal_rag_index運算符查詢索引。該操作員將提示您輸入查詢字符串,並提示查詢索引。
您還可以指定用於生成檢索結果結果的多模式模型,以及要檢索的圖像和文本結果的數量。