Doctoralk?
Doctalk es una aplicación web basada en optimismo que permite a los usuarios cargar e interactuar con sus documentos (PDF, DOCX, TXT) utilizando consultas de lenguaje natural. La aplicación aprovecha el modelo GPT-4O-Mini de OpenAI para la validación y el chat de consulta, y el texto-incrustación-3-Small para comprender y responder a las consultas de los usuarios en función del contenido de los documentos cargados.
Características
- Cargue y procese documentos : cargar archivos PDF, DOCX y TXT para la extracción y procesamiento de texto.
- COMO COMO CONTAJE Y TOKEN DEL CONTENIDO : CONTRACIÓN DE DOCUMENTOS PERSONALIZADOS PARA MEJORAR LA Recuperación de contexto y la generación de respuesta. Utiliza el tokenizador de oraciones de NLTK para la oración tokenize los documentos, seguido de token contando usando tiktoken para administrar los tamaños de los fragmentos.
- Chatle con documentos : haga preguntas sobre sus documentos cargados y reciba respuestas conscientes del contexto.
- Similitud de coseno para la recuperación de contexto : utiliza la similitud de coseno para encontrar los fragmentos de documentos más relevantes en respuesta a las consultas de los usuarios.
- Validación de la consulta : utiliza una llamada API secundaria para validar si una consulta necesita contexto del documento, finalmente ahorrando tokens y reduciendo los costos.
- Autenticación de código de acceso simple de la aplicación : el acceso a la aplicación está protegido por un código de acceso para garantizar que solo los usuarios autorizados puedan interactuar con los documentos.
Instalación
Clon el repositorio :
git clone https://github.com/kmaurinjones/doc-talk.git
cd doc-talk
Crear un entorno virtual (opcional pero recomendado):
python3 -m venv env
source env/bin/activate
Instale los paquetes requeridos :
pip install -r requirements.txt
Variables de entorno
Cree un archivo .env en la raíz de su proyecto y agregue las siguientes variables de entorno:
SIMPLE_AUTH_PASSCODE=your_passcode
OPENAI_API_KEY=your_openai_api_key
Ejecutando localmente
Para ejecutar la aplicación localmente, use el siguiente comando:
Esto iniciará el servidor Streamlit y puede acceder a la aplicación en http://localhost:8501 .
Acceder a la aplicación implementada
La aplicación también se implementa y se puede acceder a través de la siguiente URL: Doctalk Deployment
Uso
- Documentos de carga : cargar archivos PDF, DOCX o TXT usando el cargador de archivos en la aplicación.
- Documentos de proceso : haga clic en el botón "Documentos de proceso" para extraer y procesar el texto de los archivos cargados.
- Chat con documentos : use la entrada de chat para hacer preguntas sobre el contenido de los documentos cargados. La aplicación proporcionará respuestas basadas en el texto y el contexto procesados de los documentos.
Ejemplos
Aquí hay algunas capturas de pantalla de la aplicación DocTalk en uso:
Autenticación de usuario de código de acceso simple

Cargar y procesar documentos

Contexto de consulta y respuesta

Que contribuye
¡Las contribuciones son bienvenidas! Abra un problema o envíe una solicitud de extracción para cualquier mejoras o correcciones de errores.
Licencia
Este proyecto tiene licencia bajo la licencia MIT. Consulte el archivo LICENSE para obtener más detalles.
Contacto
Para cualquier pregunta o problema, contácteme en [email protected]