Estágio um
- Arquivo RAG
- Modelo de linguagem grande:
- Modelo de Idioma: "Databricks/dbrx-struct": https://huggingface.co/databricks/dbrx-instruct
- Nvidia Client: https://build.nvidia.com/databricks/dbrx-instruct
- Banco de dados vetorial:
- Milvus: https://milvus.io/
- Modelo de incorporação: https://huggingface.co/thenlper/gte-base
- Suporte OS: Linux
- Atualmente não suporta o Windows OS porque o Milvus_lite não suporta o Windows OS
- Escolherá um banco de dados diferente no futuro para corrigir este problema
- arquivo pdf_to_txt
- Identificador atual:
- pdf (texto) para txt
- Precisa melhorar
- Progresso (10/01/2024): a versão simplificada funciona no Linux, com uma capacidade de consulta
- (10/02/2024): capaz de reutilizar a coleção para consulta
Estágio dois (atual)
- Criando o leitor de PDF usando OCR
- Aceite PDF carregado
- Leia usando o Easyocr
- Armazene os resultados em arquivos, de preferência um arquivo para cada pdf
- O arquivo RAG suporta perguntas e respostas recursivas
- Capaz de armazenar controle de qualidade histórico nos arquivos correspondentes
Estágio três
- Combine o pano com o leitor de PDF
- Suporte LLM Memória de longo prazo
- Adicione o histórico de controle de qualidade a outro armazenamento
- Combine respostas com a história
Implementação de limpeza e otimizar
- Otimização, velocidade e memória
Implantação?