Genaius KTは、企業内のナレッジマネジメント向けに設計されたQ&Aチャットボットです。従業員、特に新しいインターンや研修生が進行中および以前のプロジェクトを理解するのを支援します。チャットボットは、教育コンテンツとプロジェクトの詳細に関連するクエリに応答し、知識をシームレスで効率的に転送します。
GenAIus/
├── backend/
│ ├── Data/
│ │ └── (Initial raw data of multiple formats)
│ ├── DataChunks/
│ │ └── (Extracted data chunks from all_extracted_data.txt)
│ ├── Downloads/
│ │ └── (Connected with MongoDB to download data)
│ ├── AllCleanData.txt
│ ├── ExtractedRawData.txt
│ ├── app.py
│ ├── cleaningChunks.py
│ ├── downloadRawFiles.py
│ ├── embeddings.json
│ ├── environment.yml
│ ├── extractor.py
│ ├── model.py
│ ├── ScrapeHTML.py
│ ├── splittingDataToChunks.py
│ └── uploadRawFiles.py
├── frontend/
│ └── (Next.js files)
├── README.md
└── LICENSEGenaiusチャットボットのパイプラインは、いくつかのステップで構成されています。
パイプラインの最初のステップには、以下を含むさまざまな会社のドキュメントからデータを収集することが含まれます。
多くの場合、企業データは機密であるため、これらの形式でダミーであるが現実的なデータが作成されています。
テキストデータ抽出は、さまざまなファイル形式のコンテンツを読み取り、統合テキストファイル( ExtractedRawData.txt )に保存するいくつかのPythonライブラリを使用して実行されます。使用されるライブラリには以下が含まれます。
osdocxcsvopenpyxlPyPDF2cv2pytesseractpptxselenium (Webベースのデータ用) 抽出されたテキストデータは、Google Gemini AIモデルを使用して前処理されます。大きなデータセットを考えると、データは小さな部分に充電され、バッチで処理されます。クリーニングされたデータは、 AllCleanData.txtというファイルに保存されます。
このプロジェクトは、データのクリーニングとトレーニングパーツにGemini APIキーを利用しています。プロジェクトのクローニングまたはフォーキング後、 .envファイルのプレースホルダーを独自のGemini APIキーに置き換えてください。
データがクリーニングされると、次のステップはGemini AIモデルを使用してベクトル埋め込みを作成することです。チャットボットは、これらの埋め込みを使用して、ユーザークエリに基づいて関連情報を取得し、そのドメインに焦点を合わせたままにします。
フラスコバックエンドは、フロントエンドをチャットボットの処理ロジックに接続する責任があります。バックエンドは、ユーザーインターフェイスとAIモデルの間のリクエストと応答を処理します。
ユーザーインターフェイスはnext.jsを使用して構築されており、従業員がGenaiusチャットボットと対話するためのユーザーフレンドリーなチャットインターフェイスを提供します。フロントエンドのデザインは、アクセシビリティと使いやすさを強調しています。
プロジェクトをローカルに設定するには、次の手順に従ってください。
リポジトリをクローンします:
git clone https://github.com/Pree-04/Team-GenAIus
cd GenAIus
重要:プロジェクトをクローニングまたはフォーキングした後、コード内のディレクトリとパスを変更して、プロジェクトファイルを保存したそれぞれのローカルパスを反映してください。
バックエンド依存関係をインストール:CDバックエンドPIPインストール-R要件.txt
フロントエンドのセットアップ:CD FrontEnd NPMインストール
バックエンドディレクトリに.ENVファイルを作成し、Gemini APIキーを追加します:Gemini_api_key = your_gemini_api_key_her
バックエンドサーバーを実行するには:CDバックエンドPython App.py
フロントエンドを開始するには:CD Frontend NPM Run Dev
http:// localhost:3000にアクセスして、チャットボットと対話します。
エンドツーエンドの統合:チャットボットを包括的に統合してWebアプリケーションを完全に展開して、アクセシビリティを強化します。階層的アクセス制御:組織内の従業員の立場に基づいて、機密データへのアクセスを制限する機能を実装します。これにより、機密情報が適切なクリアランスを持つ人のみがアクセスできるようになります。
貢献は大歓迎です!プルリクエストを作成するか、議論のために問題を開いてください。
このプロジェクトは、MITライセンスの下でライセンスされています。詳細については、ライセンスファイルを参照してください。