Dokter Bahasa Inggris 中文文档
ChatWeb dapat merangkak halaman web atau mengekstrak teks dari PDF, DOCX, file txt, dan menghasilkan ringkasan tertanam. Ini juga dapat menjawab pertanyaan Anda berdasarkan konten teks. Ini diimplementasikan menggunakan chatapi dan embeddingapi berdasarkan GPT3.5, serta database vektor.
Prinsip dasarnya mirip dengan proyek yang ada seperti ChatPDF dan AI layanan pelanggan otomatis.
Merangkak halaman web mengekstrak konten teks menggunakan API embedding gpt3.5 untuk menghasilkan vektor untuk setiap paragraf menghitung skor kesamaan antara masing-masing vektor paragraf dan seluruh vektor teks untuk menghasilkan ringkasan penyimpanan pemetaan vektor-teks dalam database vektor menghasilkan kata kunci dari input pengguna pengguna pengguna pengguna vektor-teks dalam database vektor menghasilkan kata kunci dari pengguna input pengguna pengguna pengguna pengguna pengguna vektor-teks dalam database vektor menghasilkan kata kunci dari pengguna input pengguna pengguna pengguna pengguna pengguna vektor-text dalam database vektor menghasilkan kata kunci dari pengguna input pengguna pengguna pengguna pengguna pengguna pengguna vektor-text dalam database vektor menghasilkan kata kunci dari pengguna input pengguna pengguna pengguna pengguna pengguna pengguna vektor-teks dalam database vektor menghasilkan kata kunci dari pengguna input pengguna pengguna pengguna pengguna pengguna pengguna vector Menghasilkan vektor dari kata kunci menggunakan database vektor untuk melakukan pencarian tetangga terdekat dan mengembalikan daftar penggunaan teks yang paling mirip API obrolan GPT3.5 untuk merancang prompt yang menjawab pertanyaan pengguna berdasarkan teks yang paling mirip dalam daftar. Idenya adalah untuk mengekstrak konten yang relevan dari sejumlah besar teks dan kemudian menjawab pertanyaan berdasarkan konten itu, yang dapat mencapai efek yang sama dengan menembus batas token.
Perbaikan dilakukan untuk menghasilkan vektor berdasarkan kata kunci daripada pertanyaan pengguna, yang meningkatkan keakuratan mencari teks yang relevan.
git clone https://github.com/SkywalkerDarren/chatWeb.gitcd chatWebconfig.example.json ke config.jsonconfig.json dan atur open_ai_key ke kunci API openai Andapip3 install -r requirements.txtpython3 main.py Jika lebih suka, Anda juga dapat menjalankan proyek ini menggunakan Docker:
docker-compose build (hanya diperlukan sekali ketika Anda tidak berencana untuk mengandung repo ini)config.example.json ke config.json dan atur semua hal yang diperlukan. Contoh konfigurasi sudah baik untuk berjalan dengan Docker, tidak perlu mengubah apa pun di sana, jika Anda tidak memiliki open_ai_key dalam variabel env Anda, Anda dapat mengaturnya di sini juga, atau lebih baru jika Anda menjalankan aplikasi ini.http://localhost:7860 config.json , atur language ke English atau bahasa lainnya config.json dan atur mode ke console , api , atau webui untuk memilih mode startup.console , ketik /help untuk melihat perintah.api , layanan API dapat disediakan untuk dunia luar. api_port DAN api_host dapat diatur dalam config.json .webui , layanan antarmuka pengguna web dapat disediakan. webui_port dapat diatur di config.json , default ke http://127.0.0.1:7860 . config.json dan atur use_stream ke true . config.json dan atur temperature ke nilai antara 0 dan 1.config.json dan tambahkan open_ai_proxy untuk alamat proxy Anda, misalnya: "open_ai_proxy": {
"http": "socks5://127.0.0.1:1081",
"https": "socks5://127.0.0.1:1081"
}
config.json dan atur use_postgres ke true .postgresql://localhost:5432/mydb , atau Anda dapat mengaturnya di config.json .Kompilasi dan pasang ekstensi (dukungan Postgres 11+).
git clone --branch v0.4.0 https://github.com/pgvector/pgvector.git
cd pgvector
make
make install # may need sudoKemudian muat di database Anda ingin menggunakannya
CREATE EXTENSION vector;
pip3 install psycopg2Please enter the link to the article or the file path of the PDF/TXT/DOCX document: https://gutenberg.ca/ebooks/hemingwaye-oldmanandthesea/hemingwaye-oldmanandthesea-00-e.html
Please wait for 10 seconds until the webpage finishes loading.
The article has been retrieved, and the number of text fragments is: 663
...
=====================================
Query fragments used tokens: 7219, cost: $ 0.0028876
Query fragments used tokens: 7250, cost: $ 0.0029000000000000002
Query fragments used tokens: 7188, cost: $ 0.0028752
Query fragments used tokens: 7177, cost: $ 0.0028708
Query fragments used tokens: 2378, cost: $ 0.0009512000000000001
Embeddings have been created with 663 embeddings, using 31212 tokens, costing $ 0.0124848
The embeddings have been saved.
=====================================
Please enter your query (/help to view commands):