O Compêndio Keeper é uma ferramenta que indexa os dados do compêndio (gerados pelo Scribe do Compêndio) em um banco de dados vetorial (como o Pinecone) para os fluxos de trabalho de geração de recuperação de recuperação de energia (RAG).
.compendium.pickle e .compendium.xml . git clone https://github.com/yourusername/compendiumkeeper.git
cd compendiumkeeperCertifique -se de ter o PDM instalado. Em seguida, corra:
pdm install Crie um arquivo .env no diretório raiz do projeto para armazenar suas chaves e configurações da API. Você pode usar o .env.example fornecido como um modelo.
.env # .env.example
# OpenAI API Key for generating embeddings
OPENAI_API_KEY = sk-your-openai-api-key
# Pinecone API Key and Environment
PINECONE_API_KEY = your-pinecone-api-key
PINECONE_ENVIRONMENT = us-east-1-aws Renomeie .env.example para .env e substitua os valores de espaço reservado pelas suas teclas de API reais.
compendium-scribe-create-compendium --domain " Cell Biology " Isso produz arquivos como cell_biology_2024-12-05.compendium.pickle e cell_biology_2024-12-05.compendium.xml .
Use a opção --compendium-file para especificar o arquivo de compêndio (pickle ou xml).
Você também deve especificar o nome do índice do banco de dados do vetor usando a opção --index-name .
Verifique se o seu arquivo .env está configurado corretamente com as teclas de API necessárias.
pdm run compendium-keeper index --compendium-file cell_biology_2024-12-05.compendium.pickle --index-name my_knowledge_indexpdm run compendium-keeper index --compendium-file cell_biology_2024-12-05.compendium.xml --index-name my_knowledge_indexApós a execução bem -sucedida, você deve ver uma mensagem de confirmação indicando o número de conceitos indexados.
Indexed 25 concepts from domain 'Cell Biology' into index 'my_knowledge_index'.
Indexing complete!
Para criar uma única base de conhecimento que abrange múltiplas Compendia, repita o processo de indexação para cada compêndio, usando o mesmo --index-name .
Por exemplo:
pdm run compendium-keeper index --compendium-file django_2024-12-10.compendium.pickle --index-name all_python_knowledge
pdm run compendium-keeper index --compendium-file flask_2024-12-10.compendium.xml --index-name all_python_knowledgeIsso mesclará o conhecimento de múltiplas compêndios no mesmo índice de banco de dados vetorial.
vector_db/ .utils.py para personalizar como as incorporações são geradas ou processadas. Configurar variáveis de ambiente
Crie um arquivo .env como descrito acima.
Gerar um compêndio
Use o Scribe do Compêndio para gerar um compêndio no formato Pickle ou XML.
Índice com compêndio
Execute o comando de indexação para fazer upload de incorporação no banco de dados vetorial escolhido.
Falta as chaves da API
Verifique se o seu arquivo .env contém todas as teclas de API necessárias. A CLI o notificará, se houver algum.
DB de vetor não suportado
Atualmente, apenas o Pinecone é suportado. Para adicionar suporte para outro banco de dados vetorial, implemente uma nova classe em vector_db/ aderência à classe base VectorDatabase .
Problemas de formato de arquivo
Certifique-se de que o --compendium-file você forneça fins em .compendium.pickle ou .compendium.xml . Arquivos com outras extensões não são suportados.
Limites da taxa de API
Esteja atento aos limites da taxa de API da OpenAI ao indexar grandes compendia. Considere implementar lotes ou limitação de taxa, se necessário.
As contribuições são bem -vindas! Sinta -se à vontade para abrir um problema ou enviar uma solicitação de tração.
O Keeper do Compêndio é liberado sob a licença do MIT.