Multi Modal using RAG
1.0.0
該項目是利用Langchain,OpenAI API和抹布(檢索儀的一代)概念的對話代理。該代理旨在讀取冗長的PDF文檔,提取各種組件,例如文本,圖像和表格,並將它們存儲在矢量數據庫中,以在與用戶對話期間有效檢索。
PDF處理:代理能夠從長PDF文檔中解析和提取信息。
多模式提取:從PDF中提取文本,圖像和表,以全面理解。
向量數據庫:利用矢量數據庫有效地存儲和檢索信息。
會話AI :實現抹布概念以增強與用戶的對話互動。
我們將使用非結構化的文檔(PDF)來解析圖像,文本和表。
我們將使用帶有Chroma的多向量檢索器存儲原始文本和圖像以及它們的摘要以進行檢索。
我們將使用GPT-4V進行圖像摘要(用於檢索)以及從圖像和文本(或表格)加入評論中的最終答案綜合。
Langchain < - 訪問此處以了解Langchain安裝
OpenAI API < - 用於設置和使用OpenAI API的說明。
Chroma DB < - 用於設置和使用矢量數據庫的說明。
提供通往源PDF的路徑
根據您的需要更改提示。
在查詢行中替換您的問題。
代理商將使用存儲的信息進行智能響應。
檢索
根據與圖像摘要以及文本塊的相似性進行檢索。這需要仔細考慮,因為如果有競爭的文本塊,圖像檢索可能會失敗。為了減輕這種情況,我產生了更大的(4K令牌)文本塊,並將其總結為檢索。
圖像大小
如預期的那樣,答案合成的質量似乎對圖像大小很敏感。我將盡快進行更仔細的測試。
該項目已根據MIT許可獲得許可。