multi modal document search
1.0.0
作為一個相當快的項目,該存儲庫提供了一個簡化的應用程序,該應用程序使用戶能夠上傳屏幕截圖,該屏幕截圖將比在PDF文檔數據庫中查詢。圖像結構以及(可能)的文本都用於為自定義集找到匹配文檔。
當用戶上傳屏幕截圖時,觸發了兩個流。首先,我們構建一個嵌入屏幕截圖的圖像。由於VIT-G-14圖像嵌入在方形輸入上訓練,因此構建了塊。功率點幻燈片或A4文檔通常具有接近2:1的側面關係,這就是為什麼分塊應支持整體查詢質量的原因。然後將圖像嵌入(2 x 1024dim)與已知塊的矢量存儲相抵觸。第二流首先使用Google的Tesseract OCR引擎從屏幕截圖中提取文本。之後,文本嵌入(1024DIM)是使用表現最好的多語言模型E5-Large構建的。在最後一步中,結果使用向量存儲之間的共享ID系統將結果合併在一起,並發送給用戶。
這是我分享一些想法的地方。
這個想法是提供快速使用工具。假設您有一個演示文稿幻燈片,並且想知道您之前是否創建了類似的東西。如果您要上傳整個文檔,則需要一個額外的頁碼輸入字段,您需要在文件系統中找到該文檔,並且需要支持文件類型。僅屏幕截圖更快(所有操作系統上都有方便的快捷方式),並且僅上傳單個圖片很簡單。
組合一個小應用程序是快速的,我比基於CLI的工具更喜歡視覺接口。
主要是通過擁抱面排行榜。由於這是一個小型項目,我還想專門使用預訓練的模型。
腳本pdf_to_db.py是pdfs/中所有文檔的簡單迭代,它使用其他類填充矢量存儲。
這不是一個積極發達的項目,並且主要用於與二手技術進行項目。如果您有任何疑問,請隨時與我聯繫。