DocSenseダウンロードDocSenseソースコードのダウンロード

DocSense

その他のソースコード

1.0.0

ダウンロード

DocSense-スマートPDFの比較と分析

プロジェクト画像

このプロジェクトは、さまざまなCOSINE類似性スキャンを使用してPDFドキュメントを比較するためのWebアプリケーションと、処理されたPDFと対話するチャットボットインターフェイスを提供します。アプリケーションは、Riremlit、Fastapi、およびLangchainを使用して構築されています。

特徴

PDF比較：異なるレベルのコサイン類似性スキャンを使用して、2つのPDFを比較します。
- ドキュメントレベルのCOSINE類似性スキャン
- 文レベルのコサインの類似性スキャン
- 前処理された文レベルのコサイン類似性スキャン
チャットボット：カスタムLLMモデル（LLAMA 3およびGoogle Gemini）を搭載したチャットボットを使用して、PDFSのコンテンツと対話します。

インストール

リポジトリをクローンします：

git clone https://github.com/lakshya324/DocSense.git
cd DocSense

必要なパッケージをインストールします。
```
pip install -r requirements.txt
```
環境変数の設定：ルートディレクトリに.envファイルを作成し、環境変数を追加します。
```
 GOOGLE_API_KEY=your-google-api-key
DEPLOYED=False
```
Llama 3とOllama：次のコマンドを実行して、Llama 3（8b）とOllamaをインストールします。
```
ollama run llama3
```

使用法

retrylitアプリを実行します：
```
streamlit run app.py
```
ホームページに移動します：
- 比較する2つのPDFをアップロードします。
- スキャンのタイプ（ドキュメントレベル、文レベル、前処理された文レベル）を選択します。
- 埋め込みタイプ（カウントベクター、TF-IDFベクター、オールミニルム-L6-V2）を選択します。
- [送信]をクリックしてPDFを比較し、類似性スコアを取得します。
チャットボットページに移動します：
- PDFをベクトルデータベースにロードします。
- LLMモデルを選択してクエリを入力して、チャットボットを使用してPDFSと対話します。

プロジェクト構造

 ├── app.py                     # Main Streamlit application
├── compare.py                 # PDF comparison logic
├── pdf_extractor.py           # PDF text extraction logic
├── text_preprocessing.py      # Pre-processing of PDF text
├── LLM
│   ├── gemini.py              # Google Gemini LLM integration
│   ├── llama3.py              # LLAMA 3 LLM integration (OLLAMA)
│   ├── prompt.py              # Prompt generation logic
├── embeddings
│   ├── CountVectorizer.py     # Count Vectorization logic
│   ├── TfidfVectorizer.py     # TF-IDF Vectorization logic
│   ├── all_MiniLM_L6_v2.py    # All-MiniLM-L6-v2 Vectorization logic
├── result.py                  # Chatbot result processing
├── requirements.txt           # Required Python packages
└── .env                       # Environment variables (not included in the repository)