English Doc 中文文档
ChatWeb puede rastrear cualquier página web o extraer texto de los archivos PDF, DOCX, TXT y generar un resumen integrado. También puede responder a sus preguntas en función del contenido del texto. Se implementa utilizando el chatapi e increddingapi basado en GPT3.5, así como en una base de datos vectorial.
El principio básico es similar a los proyectos existentes como CHATPDF y AI automatizado de servicio al cliente.
Crawl Web Pages Extract Contenido de texto Use la API de incrustación de GPT3.5 para generar vectores para cada párrafo Calcule la puntuación de similitud entre el vector de cada párrafo y el vector de todo el texto para generar un almacén de resumen de la asignación de texto vector Genere un vector a partir de las palabras clave Use la base de datos Vector para realizar una búsqueda de vecinos más cercano y devolver una lista de los textos más similares de uso La API de chat de GPT3.5 para diseñar un mensaje que responda a la pregunta del usuario en función de los textos más similares de la lista. La idea es extraer contenido relevante de una gran cantidad de texto y luego responder preguntas basadas en ese contenido, lo que puede lograr un efecto similar para romper los límites del token.
Se realizó una mejora para generar vectores basados en palabras clave en lugar de la pregunta del usuario, lo que aumenta la precisión de la búsqueda de textos relevantes.
git clone https://github.com/SkywalkerDarren/chatWeb.gitcd chatWebconfig.example.json a config.jsonconfig.json y establecer open_ai_key en su tecla API de OpenAIpip3 install -r requirements.txtpython3 main.py Si lo prefiere, también puede ejecutar este proyecto usando Docker:
docker-compose build (solo necesario una vez cuando no planea contener a este repositorio)config.example.json a config.json y establezca todas las cosas necesarias. La configuración de ejemplo ya está bien para ejecutarse con Docker, no es necesario cambiar nada allí, si no tiene el Open_AI_Key en sus variables Env, también puede configurarlo aquí, o más tarde si ejecuta esta aplicación.http://localhost:7860 config.json , establecer language en English u otro idioma config.json y establecer mode en console , api o webui para elegir el modo de inicio.console , escriba /help para ver los comandos.api , se puede proporcionar un servicio API al mundo exterior. api_port y api_host se pueden configurar en config.json .webui , se puede proporcionar un servicio de interfaz de usuario web. webui_port se puede configurar en config.json , por defecto a http://127.0.0.1:7860 . config.json y establecer use_stream en true . config.json y establezca temperature en un valor entre 0 y 1.config.json y agregar open_ai_proxy para su dirección proxy, por ejemplo: "open_ai_proxy": {
"http": "socks5://127.0.0.1:1081",
"https": "socks5://127.0.0.1:1081"
}
config.json y establecer use_postgres en true .postgresql://localhost:5432/mydb , o puede configurarla en config.json .Compile e instale la extensión (soporte Postgres 11+).
git clone --branch v0.4.0 https://github.com/pgvector/pgvector.git
cd pgvector
make
make install # may need sudoLuego cargalo en la base de datos en la que desea usarla
CREATE EXTENSION vector;
pip3 install psycopg2Please enter the link to the article or the file path of the PDF/TXT/DOCX document: https://gutenberg.ca/ebooks/hemingwaye-oldmanandthesea/hemingwaye-oldmanandthesea-00-e.html
Please wait for 10 seconds until the webpage finishes loading.
The article has been retrieved, and the number of text fragments is: 663
...
=====================================
Query fragments used tokens: 7219, cost: $ 0.0028876
Query fragments used tokens: 7250, cost: $ 0.0029000000000000002
Query fragments used tokens: 7188, cost: $ 0.0028752
Query fragments used tokens: 7177, cost: $ 0.0028708
Query fragments used tokens: 2378, cost: $ 0.0009512000000000001
Embeddings have been created with 663 embeddings, using 31212 tokens, costing $ 0.0124848
The embeddings have been saved.
=====================================
Please enter your query (/help to view commands):