chatpdflikeダウンロードchatpdflikeソースコードのダウンロード

chatpdflike

その他のソースコード

1.0.0

ダウンロード

chatpdflike

大規模な言語モデルAPIを使用したエンドツーエンドのドキュメント質問アプリケーション。

注：このプロジェクトは、CHATPDFと提携しておらず、承認されていません。これは、同様の機能を複製しようとする独立したプロジェクトです。

概要

chatpdf-likeは、ユーザーがPDFドキュメントをアップロードし、自然言語クエリを使用して対話できるWebアプリケーションです。アプリケーションは、PDFのコンテンツを理解し、ユーザーの質問に対する簡潔で正確な回答を提供するために、OpenaiのGPT-3.5ターボのような大規模な言語モデル（LLM）を活用しています。

特徴

PDFドキュメントアップロード：ローカルPDFファイルをアップロードするか、PDFドキュメントにURLを提供します。
自然言語の相互作用：自然言語におけるPDFの内容について質問します。
関連する回答：ドキュメントの内容に基づいて簡潔な回答を受け取ります。
ソース参照：答えを生成するために使用されたソース（PDFのセクション）を表示します。
複数のLLMプロバイダー：Openaiモデルとオラマモデルの両方のサポート。
Webインターフェイス：FlaskとJavaScriptで構築されたシンプルで直感的なWebインターフェイス。

それがどのように機能するか

アプリケーションは、これらの主な手順に従います。

テキスト抽出と処理：
- PDFはPyPDF2を使用して解析されます。
- テキストは各ページから抽出され、大きなテキストは管理可能なチャンクに分割されます。
埋め込み世代：
- 各テキストチャンクについて、選択した埋め込みモデルを使用して埋め込みベクトルが生成されます（例えば、Openaiのtext-embedding-ada-002 ）。
- これらの埋め込みは、テキストチャンクの意味的な意味を表し、類似性計算のために保存されます。
ユーザークエリ処理：
- ユーザーが質問をすると、同じ埋め込みモデルを使用してクエリの埋め込みベクトルが生成されます。
類似性検索：
- アプリケーションは、クエリの埋め込みとテキストチャンク埋め込みの間のコサインの類似性を計算します。
- 最も関連性の高いテキストチャンクは、最高の類似性スコアに基づいて選択されます。
迅速な構築：
- ユーザーの質問と最も関連性の高いテキストチャンクを組み込んだ言語モデル用のプロンプトが作成されます。
回答生成：
- プロンプトは言語モデル（OpenaiのGPT-3.5ターボなど）に送信されます。
- モデルは、提供されたコンテキストに基づいてユーザーの質問に対する回答を生成します。
応答表示：
- 答えは、Webインターフェイスのユーザーに表示されます。
- ソーステキストチャンクへの参照も透明性のために提供されます。

はじめる

前提条件

Python ：バージョン3.6以上が必要です。
APIキー：
- OpenAI APIキー：埋め込みおよび回答生成にOpenAIのモデルを使用する必要があります。
- Ollama APIキー：オプション。 Ollamaモデルを使用する場合は必要です。

インストール

リポジトリをクローンします

git clone https://github.com/Ulov888/chatpdflike.git
cd chatpdflike

依存関係をインストールします
pipを使用して、必要なパッケージをインストールします。
```
pip install -r requirements.txt
```

APIキー

OpenaiのAPIを使用するには：

OpenaiでAPIキーにサインアップします。

OPENAI_API_KEY環境変数を設定します。

 export OPENAI_API_KEY= " your_openai_api_key "

OllamaのAPIを使用するには（必要に応じて）：

OllamaからAPIキーを取得します。

OLLAMA_API_KEY環境変数を設定します。

 export OLLAMA_API_KEY= " your_ollama_api_key "

使用法

アプリケーションを開始します
Flaskアプリケーションを実行します：
```
python run.py
```
デフォルトでは、サーバーはhttp://0.0.0.0:8080で実行されます。
Webインターフェイスにアクセスします
Webブラウザーを開き、 http://localhost:8080に移動します。
PDFドキュメントをアップロードします
どちらもできます：
- [PDFのアップロード]をクリックして、コンピューターからPDFファイルを選択してアップロードします。
- PDFドキュメントにURLを入力し、[送信]をクリックします。
PDFと対話します
- PDFが処理されたら、画面の右側にあるチャットインターフェイスを使用して、コンテンツについて質問することができます。
- 入力ボックスに質問を入力し、「送信」を押します。
答えを表示します
- アプリケーションの回答は質問の下に表示されます。
- ソース参照（たとえば、ページ番号と抜粋）は、コンテキストのために提供されます。

デモGIF

カスタマイズ

迅速な戦略

言語モデルの動作は、特にChatbotクラスのcreate_promptメソッドで、 generate_embedding.py迅速な戦略を変更することでカスタマイズできます。

戦略は次のとおりです。

論文：科学論文の要約。
ハンドブック：金融ハンドブックを要約するため（中国語の回答）。
契約：契約を理解するため（中国語での回答）。
デフォルト：汎用戦略（中国語での回答）。

戦略を選択するには、 create_prompt呼び出すときにstrategyパラメーターを変更できます。

言語と出力

アプリケーションは現在、一部の戦略に対して中国語で回答を提供するように構成されています。プロンプトを変更して、言語を変更したり、モデルの動作を調整したりできます。

制限

Openai APIコスト：OpenaiのAPIを使用すると、使用に基づいてコストがかかります。予期しない料金を避けるために、API使用量を監視してください。
PDF解析：アプリケーションはPyPDF2を使用します。これは、すべてのPDFを完全に処理しない場合があります。異常なフォーマットを備えた複雑なPDFは、正しく解析されない場合があります。
埋め込み制限：埋め込みの最大トークン制限は、テキストチャンクのサイズまたはプロンプトの最大長を制限する場合があります。
モデル応答：回答の品質と精度は、言語モデルのパフォーマンスと、取得したテキストチャンクの関連性に依存します。

貢献

貢献は大歓迎です！提案や改善がある場合は、問題を提出するか、リクエストをプルしてください。

ライセンス

このプロジェクトは、Apacheライセンスの下でライセンスされています。

拡大する

追加情報

バージョン 1.0.0
タイプその他のソースコード
更新時間 2025-03-04
サイズ 1.48MB
から Github

chatpdflike

chatpdflike

概要

特徴

それがどのように機能するか

はじめる

前提条件

インストール

APIキー

使用法

カスタマイズ

迅速な戦略

言語と出力

制限

貢献

ライセンス

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express