Descarga multi modal document search - Descargar el código fuente multi modal document search

multi modal document search

Otro código fuente

1.0.0

Descargar

Búsqueda de documentos múltiples modales

Como un proyecto bastante rápido, este repositorio proporciona una aplicación de transmisión que permite a un usuario cargar una captura de pantalla que se consulte en una base de datos de documentos PDF. Tanto la estructura de la imagen como el texto (posiblemente) incluido se utilizan para encontrar documentos coincidentes para un conjunto autofinido.

Proceso de consulta

Cuando un usuario carga una captura de pantalla, se activan dos flujos. Primero construimos una imagen que incrustamos dos trozos de la captura de pantalla. Los trozos se construyen ya que la inscripción de la imagen VIT-G-14 está entrenada en entradas cuadradas. Las diapositivas de punto de alimentación o los documentos A4 generalmente tienen una relación lateral de más cercano a 2: 1, por lo que fragmentar debería soportar la calidad general de la consulta. Los incrustaciones de la imagen (2 x 1024dim) se consultan contra una tienda vectorial de trozos conocidos. El segundo flujo primero extrae texto de la captura de pantalla utilizando el motor Tesseract OCR de Google. Posteriormente, los incrustaciones de texto (1024Dim) se construyen utilizando uno de los modelos de mayor lenguaje con mejor rendimiento, E5-Large. En un paso final, los resultados se fusionan nuevamente, utilizando un sistema de identificación compartido entre las tiendas vectoriales, y envían al usuario.

Decisiones de diseño

Este es el lugar donde comparto algunos de mis pensamientos.

¿Por qué usar capturas de pantalla y no documentos como entrada?

La idea era proporcionar una herramienta rápida para usar. Suponga que tiene una diapositiva de presentación y le gustaría saber si creó algo similar anteriormente. Si cargaría todo el documento, habría un requisito para un campo de entrada de número de página adicional, necesitaría encontrar el documento en su sistema de archivos y el tipo de archivos debería ser compatible. Simplemente tomar una captura de pantalla es más rápida (hay atajos prácticos en todo el sistema operativo) y simplemente cargar una sola imagen es sencilla.

¿Por qué racionalizar?

Es rápido armar una pequeña aplicación y me gustan las interfaces visuales mucho más que las herramientas basadas en CLI.

¿Cómo se escogieron los modelos?

Principalmente a través de tablas de clasificación de Huggingface. Dado que este es un pequeño proyecto, también quería usar exclusivamente modelos previamente capacitados.

¿Cómo llevar sus propios documentos a las tiendas vectoriales?

El script pdf_to_db.py es una iteración simple sobre todos los documentos en pdfs/ que usa las otras clases para llenar las tiendas vectoriales.

Conclusión

Este no es un proyecto desarrollado activamente y se utilizó principalmente para hacer un proyecto práctico con las tecnologías usadas. Si tiene alguna pregunta, no dude en contactarme.

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-05-30
tamaño 7.92KB
Proviene de Github

Aplicaciones relacionadas

multi roblox macos

2024-11-14
TikTok Multi Downloader

2024-11-10
Búsqueda de palabras 800

2024-11-08
azure search python samples

2024-11-05
Dragon Ball Project Multi versión china

2024-08-23
Liehuo! Buscar búsqueda en inglés

2011-01-07

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo