Doctalk?
O DocTalk é um aplicativo da Web baseado em fluxo que permite que os usuários enviem e interajam com seus documentos (PDF, DOCX, TXT) usando consultas de linguagem natural. O aplicativo aproveita o modelo GPT-4O-Mini do OpenAI para validação e bate-papo de consulta, e o Text-3-Small para entender e responder às consultas do usuário com base no conteúdo dos documentos enviados.
Características
- Carregue e processe documentos : faça o upload de arquivos PDF, DOCX e TXT para extração e processamento de texto.
- Chunking personalizado e contagem de token : Chunking personalizado de documentos para melhorar a recuperação de contexto e a geração de respostas. Usa o tokenizador de sentença do NLTK para sentença de tokenizar os documentos, seguida pela contagem de token usando o Tiktoken para gerenciar tamanhos de bloco.
- Converse com os documentos : faça perguntas sobre seus documentos enviados e receba respostas com consciência de contexto.
- Similaridade de cosseno para recuperação de contexto : utiliza a similaridade do cosseno para encontrar os pedaços de documentos mais relevantes em resposta às consultas do usuário.
- Validação da consulta : usa uma chamada de API secundária para validar se uma consulta precisa de contexto de documento, economizando tokens e reduzindo os custos.
- Autenticação de código de senha do aplicativo simples : o acesso ao aplicativo é protegido por uma senha para garantir que apenas usuários autorizados possam interagir com os documentos.
Instalação
Clone o repositório :
git clone https://github.com/kmaurinjones/doc-talk.git
cd doc-talk
Crie um ambiente virtual (opcional, mas recomendado):
python3 -m venv env
source env/bin/activate
Instale os pacotes necessários :
pip install -r requirements.txt
Variáveis de ambiente
Crie um arquivo .env na raiz do seu projeto e adicione as seguintes variáveis de ambiente:
SIMPLE_AUTH_PASSCODE=your_passcode
OPENAI_API_KEY=your_openai_api_key
Executando localmente
Para executar o aplicativo localmente, use o seguinte comando:
Isso iniciará o servidor StreamLit e você poderá acessar o aplicativo em http://localhost:8501 .
Acessando o aplicativo implantado
O aplicativo também é implantado e pode ser acessado através do seguinte URL: DocTalk Deployment
Uso
- Documentos de upload : Faça o upload de arquivos PDF, DOCX ou TXT usando o uploader de arquivo no aplicativo.
- Documentos do processo : clique no botão "Procura documentos" para extrair e processar o texto dos arquivos enviados.
- Converse com documentos : use a entrada de bate -papo para fazer perguntas sobre o conteúdo dos documentos enviados. O aplicativo fornecerá respostas com base no texto e contexto processados dos documentos.
Exemplos
Aqui estão algumas capturas de tela do aplicativo Doctalk em uso:
Autenticação de usuário de código de senha simples

Upload e processamento de documentos

Contexto de consulta e resposta

Contribuindo
As contribuições são bem -vindas! Abra um problema ou envie uma solicitação de tração para obter melhorias ou correções de bug.
Licença
Este projeto está licenciado sob a licença do MIT. Consulte o arquivo LICENSE para obter detalhes.
Contato
Para quaisquer perguntas ou questões, entre em contato comigo em [email protected]