Doc inglês 中文文档
Chatweb pode rastejar qualquer página da web ou extrair texto de PDF, DOCX, TXT Arquivos e gerar um resumo incorporado. Também pode responder às suas perguntas com base no conteúdo do texto. Ele é implementado usando o Chatapi e o INCEDDINGINGAPI com base no GPT3.5, bem como em um banco de dados vetorial.
O princípio básico é semelhante aos projetos existentes, como chatpdf e atendimento automatizado da IA.
Páginas da Web Rastrear a Web Extrair conteúdo de texto Use a API de incorporação do GPT3.5 para gerar vetores para cada parágrafo Calcule a pontuação de similaridade entre o vetor de cada parágrafo e o vetor de todo Gere um vetor das palavras -chave Use o banco de dados vetor API de bate -papo do GPT3.5 para projetar um aviso que responda à pergunta do usuário com base nos textos mais semelhantes da lista. A idéia é extrair conteúdo relevante de uma grande quantidade de texto e, em seguida, responder a perguntas com base nesse conteúdo, o que pode obter um efeito semelhante à divisão dos limites do token.
Foi feita uma melhoria para gerar vetores com base em palavras -chave e não na pergunta do usuário, o que aumenta a precisão da busca de textos relevantes.
git clone https://github.com/SkywalkerDarren/chatWeb.gitcd chatWebconfig.example.json para config.jsonconfig.json e defina open_ai_key para sua chave de API do OpenAipip3 install -r requirements.txtpython3 main.py Se preferir, você também pode executar este projeto usando o Docker:
docker-compose build (necessário apenas uma vez quando você não está planejando contribuir com este repositório)config.example.json para config.json e defina todas as coisas necessárias. A configuração de exemplo já está bem para correr com o Docker, não é necessário alterar nada lá, se você não tiver o Open_Ai_Key em suas variáveis Env, também poderá defini -la aqui ou posteriormente se executar este aplicativo.http://localhost:7860 config.json , defina language para English ou outro idioma config.json e Set mode para console , api ou webui para escolher o modo de inicialização.console , digite /help para visualizar comandos.api , um serviço de API pode ser fornecido ao mundo exterior. api_port e api_host podem ser definidos em config.json .webui , um serviço de interface do usuário da Web pode ser fornecido. webui_port pode ser definido em config.json , inadimplente para http://127.0.0.1:7860 . config.json e defina use_stream como true . config.json e defina temperature como um valor entre 0 e 1.config.json e adicione open_ai_proxy para o seu endereço de proxy, por exemplo: "open_ai_proxy": {
"http": "socks5://127.0.0.1:1081",
"https": "socks5://127.0.0.1:1081"
}
config.json e defina use_postgres como true .postgresql://localhost:5432/mydb , ou você pode defini -lo em config.json .Compilar e instalar a extensão (suporte a Postgres 11+).
git clone --branch v0.4.0 https://github.com/pgvector/pgvector.git
cd pgvector
make
make install # may need sudoEm seguida, carregue -o no banco de dados em que você deseja usá -lo
CREATE EXTENSION vector;
pip3 install psycopg2Please enter the link to the article or the file path of the PDF/TXT/DOCX document: https://gutenberg.ca/ebooks/hemingwaye-oldmanandthesea/hemingwaye-oldmanandthesea-00-e.html
Please wait for 10 seconds until the webpage finishes loading.
The article has been retrieved, and the number of text fragments is: 663
...
=====================================
Query fragments used tokens: 7219, cost: $ 0.0028876
Query fragments used tokens: 7250, cost: $ 0.0029000000000000002
Query fragments used tokens: 7188, cost: $ 0.0028752
Query fragments used tokens: 7177, cost: $ 0.0028708
Query fragments used tokens: 2378, cost: $ 0.0009512000000000001
Embeddings have been created with 663 embeddings, using 31212 tokens, costing $ 0.0124848
The embeddings have been saved.
=====================================
Please enter your query (/help to view commands):