chatWeb
1.0.0
英語のドキュメント中文文档
ChatWebは、任意のWebページをクロールしたり、PDF、DOCX、TXTファイルからテキストを抽出し、埋め込まれた要約を生成できます。また、テキストの内容に基づいて質問に答えることができます。 GPT3.5とベクトルデータベースに基づいてChatapiとEmbeddingapiを使用して実装されます。
基本原則は、CHATPDFや自動化されたカスタマーサービスAIなどの既存のプロジェクトに似ています。
クロールWebページの抽出テキストコンテンツは、GPT3.5の埋め込みAPIを使用して各段落のベクトルを生成します。各段落のベクトルとテキストのベクトル全体の類似性スコアを計算して、ユーザー入力からベクターデータベースのベクトルテキストマッピングを生成するベクトルテキストマッピングを生成しますキーワードからベクトルを生成するベクトルデータベースを使用して最近傍検索を実行し、最も類似したテキストのリストを返すGPT3.5のチャットAPIは、リスト内の最も類似したテキストに基づいてユーザーの質問に答えるプロンプトを設計します。アイデアは、関連するコンテンツを大量のテキストから抽出し、そのコンテンツに基づいて質問に答えることです。
ユーザーの質問ではなく、キーワードに基づいてベクターを生成するために改善が行われ、関連するテキストを検索する精度が向上します。
git clone https://github.com/SkywalkerDarren/chatWeb.gitを実行して、このリポジトリをダウンロードしてくださいcd chatWebを実行して、ディレクトリに移動しますconfig.example.jsonをconfig.jsonにコピーしますconfig.jsonを編集し、 open_ai_keyをOpenai APIキーに設定しますpip3 install -r requirements.txtを実行して依存関係をインストールします。txtpython3 main.pyを実行してアプリケーションを開始します必要に応じて、Dockerを使用してこのプロジェクトを実行することもできます。
docker-compose buildを使用してコンテナを構築します(このレポに相談することを計画していない場合は1回だけ必要です)config.example.jsonをconfig.jsonにコピーし、必要なものをすべて設定します。例の構成は既にDockerで実行されていないため、そこに何かを変更する必要はありません。Env変数にOpen_Ai_keyがない場合は、ここに設定することもできます。http://localhost:7860 config.jsonを編集し、 language Englishまたはその他の言語に設定しますconfig.jsonとセットmode console 、 api 、またはwebuiに設定して、起動モードを選択します。consoleモードでは、コマンドを表示するためのタイプ/help 。apiモードでは、APIサービスを外の世界に提供できます。 api_portおよびapi_host config.jsonで設定できます。webuiモードでは、Webユーザーインターフェイスサービスを提供できます。 webui_port 、 http://127.0.0.1:7860にデフォルトでconfig.jsonで設定できます。 config.jsonを編集し、 use_stream trueに設定します。 config.jsonを編集し、 temperatureを0〜1の値に設定します。config.jsonを編集し、プロキシアドレスにopen_ai_proxyを追加します。たとえば "open_ai_proxy": {
"http": "socks5://127.0.0.1:1081",
"https": "socks5://127.0.0.1:1081"
}
config.jsonを編集し、 use_postgres trueに設定します。postgresql://localhost:5432/mydbです。または、 config.jsonで設定できます。拡張機能をコンパイルしてインストールします(Postgres 11+をサポート)。
git clone --branch v0.4.0 https://github.com/pgvector/pgvector.git
cd pgvector
make
make install # may need sudo次に、使用するデータベースにロードします
CREATE EXTENSION vector;
pip3 install psycopg2Please enter the link to the article or the file path of the PDF/TXT/DOCX document: https://gutenberg.ca/ebooks/hemingwaye-oldmanandthesea/hemingwaye-oldmanandthesea-00-e.html
Please wait for 10 seconds until the webpage finishes loading.
The article has been retrieved, and the number of text fragments is: 663
...
=====================================
Query fragments used tokens: 7219, cost: $ 0.0028876
Query fragments used tokens: 7250, cost: $ 0.0029000000000000002
Query fragments used tokens: 7188, cost: $ 0.0028752
Query fragments used tokens: 7177, cost: $ 0.0028708
Query fragments used tokens: 2378, cost: $ 0.0009512000000000001
Embeddings have been created with 663 embeddings, using 31212 tokens, costing $ 0.0124848
The embeddings have been saved.
=====================================
Please enter your query (/help to view commands):