เอกสารภาษาอังกฤษ中文文档
ChatWeb สามารถรวบรวมข้อมูลเว็บเพจหรือแยกข้อความจาก PDF, DOCX, ไฟล์ TXT และสร้างบทสรุปแบบฝัง นอกจากนี้ยังสามารถตอบคำถามของคุณตามเนื้อหาของข้อความ มันถูกนำมาใช้โดยใช้ chatapi และ EmbeddingAPI ตาม GPT3.5 รวมถึงฐานข้อมูลเวกเตอร์
หลักการพื้นฐานนั้นคล้ายคลึงกับโครงการที่มีอยู่เช่น ChATPDF และบริการลูกค้าอัตโนมัติ AI
การรวบรวมข้อมูลหน้าเว็บสกัดเนื้อหาข้อความใช้ API ฝังของ GPT3.5 เพื่อสร้างเวกเตอร์สำหรับแต่ละย่อหน้าคำนวณคะแนนความคล้ายคลึงกันระหว่างเวกเตอร์ของแต่ละย่อหน้าและเวกเตอร์ข้อความทั้งหมดเพื่อสร้างการจัดเก็บการแม็พข้อความเวกเตอร์ในฐานข้อมูลเวกเตอร์สร้างคำสำคัญจากผู้ใช้อินพุตผู้ใช้ สร้างเวกเตอร์จากคำหลักใช้ฐานข้อมูลเวกเตอร์เพื่อทำการค้นหาเพื่อนบ้านที่ใกล้ที่สุดและส่งคืนรายการข้อความที่คล้ายกันมากที่สุด API แชทของ GPT3.5 เพื่อออกแบบพรอมต์ที่ตอบคำถามของผู้ใช้ตามข้อความที่คล้ายกันมากที่สุดในรายการ แนวคิดคือการแยกเนื้อหาที่เกี่ยวข้องจากข้อความจำนวนมากจากนั้นตอบคำถามตามเนื้อหานั้นซึ่งสามารถบรรลุผลที่คล้ายกันในการทำลายขีด จำกัด โทเค็น
มีการปรับปรุงเพื่อสร้างเวกเตอร์ตามคำหลักมากกว่าคำถามของผู้ใช้ซึ่งเพิ่มความแม่นยำในการค้นหาข้อความที่เกี่ยวข้อง
git clone https://github.com/SkywalkerDarren/chatWeb.gitcd chatWebconfig.example.json เป็น config.jsonconfig.json และตั้งค่า open_ai_key เป็นคีย์ OpenAI API ของคุณpip3 install -r requirements.txtpython3 main.py หากคุณต้องการคุณสามารถเรียกใช้โครงการนี้โดยใช้ Docker:
docker-compose build (จำเป็นเพียงครั้งเดียวเมื่อคุณไม่ได้วางแผนที่จะเชื่อมต่อกับ repo นี้)config.example.json เป็น config.json และตั้งค่าสิ่งที่จำเป็นทั้งหมด ตัวอย่างการกำหนดค่านั้นใช้ได้ดีสำหรับการทำงานกับ Docker ไม่จำเป็นต้องเปลี่ยนแปลงอะไรเลยหากคุณไม่มี Open_AI_KEY ในตัวแปร Env ของคุณคุณสามารถตั้งค่าได้ที่นี่ด้วยหรือในภายหลังถ้าคุณเรียกใช้แอพนี้http://localhost:7860 config.json ตั้งค่า language เป็น English หรือภาษาอื่น ๆ config.json และ mode ตั้งค่าเป็น console , api หรือ webui เพื่อเลือกโหมดเริ่มต้นconsole ให้พิมพ์ /help ในการดูคำสั่งapi สามารถให้บริการ API กับโลกภายนอกได้ api_port และ api_host สามารถตั้งค่าใน config.jsonwebui สามารถให้บริการส่วนต่อประสานกับผู้ใช้เว็บได้ webui_port สามารถตั้งค่าใน config.json , ค่าเริ่มต้นเป็น http://127.0.0.1:7860 config.json และตั้งค่า use_stream เป็น true config.json และตั้ง temperature เป็นค่าระหว่าง 0 ถึง 1config.json และเพิ่ม open_ai_proxy สำหรับที่อยู่พร็อกซีของคุณตัวอย่างเช่น: "open_ai_proxy": {
"http": "socks5://127.0.0.1:1081",
"https": "socks5://127.0.0.1:1081"
}
config.json และตั้งค่า use_postgres เป็น truepostgresql://localhost:5432/mydb หรือคุณสามารถตั้งค่าใน config.jsonรวบรวมและติดตั้งส่วนขยาย (สนับสนุน Postgres 11+)
git clone --branch v0.4.0 https://github.com/pgvector/pgvector.git
cd pgvector
make
make install # may need sudoจากนั้นโหลดในฐานข้อมูลที่คุณต้องการใช้ใน
CREATE EXTENSION vector;
pip3 install psycopg2Please enter the link to the article or the file path of the PDF/TXT/DOCX document: https://gutenberg.ca/ebooks/hemingwaye-oldmanandthesea/hemingwaye-oldmanandthesea-00-e.html
Please wait for 10 seconds until the webpage finishes loading.
The article has been retrieved, and the number of text fragments is: 663
...
=====================================
Query fragments used tokens: 7219, cost: $ 0.0028876
Query fragments used tokens: 7250, cost: $ 0.0029000000000000002
Query fragments used tokens: 7188, cost: $ 0.0028752
Query fragments used tokens: 7177, cost: $ 0.0028708
Query fragments used tokens: 2378, cost: $ 0.0009512000000000001
Embeddings have been created with 663 embeddings, using 31212 tokens, costing $ 0.0124848
The embeddings have been saved.
=====================================
Please enter your query (/help to view commands):