multi modal document search
1.0.0
作为一个相当快的项目,该存储库提供了一个简化的应用程序,该应用程序使用户能够上传屏幕截图,该屏幕截图将比在PDF文档数据库中查询。图像结构以及(可能)的文本都用于为自定义集找到匹配文档。
当用户上传屏幕截图时,触发了两个流。首先,我们构建一个嵌入屏幕截图的图像。由于VIT-G-14图像嵌入在方形输入上训练,因此构建了块。功率点幻灯片或A4文档通常具有接近2:1的侧面关系,这就是为什么分块应支持整体查询质量的原因。然后将图像嵌入(2 x 1024dim)与已知块的矢量存储相抵触。第二流首先使用Google的Tesseract OCR引擎从屏幕截图中提取文本。之后,文本嵌入(1024DIM)是使用表现最好的多语言模型E5-Large构建的。在最后一步中,结果使用向量存储之间的共享ID系统将结果合并在一起,并发送给用户。
这是我分享一些想法的地方。
这个想法是提供快速使用工具。假设您有一个演示文稿幻灯片,并且想知道您之前是否创建了类似的东西。如果您要上传整个文档,则需要一个额外的页码输入字段,您需要在文件系统中找到该文档,并且需要支持文件类型。仅屏幕截图更快(所有操作系统上都有方便的快捷方式),并且仅上传单个图片很简单。
组合一个小应用程序是快速的,我比基于CLI的工具更喜欢视觉接口。
主要是通过拥抱面排行榜。由于这是一个小型项目,我还想专门使用预训练的模型。
脚本pdf_to_db.py是pdfs/中所有文档的简单迭代,它使用其他类填充矢量存储。
这不是一个积极发达的项目,并且主要用于与二手技术进行项目。如果您有任何疑问,请随时与我联系。